问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

科普SparkSpark是什么如何使用Spark

发布网友 发布时间:2024-09-28 05:40

我来回答

1个回答

热心网友 时间:2024-10-29 07:42

科普Spark,Spark是什么,如何使用Spark?

自己写的Spark入门实战教程,适合于有一定hadoop和数据分析经验的朋友。

Spark简介

Spark是一个开源的计算框架平台,使用该平台,数据分析程序可自动分发到集群中的不同机器中,以解决大规模数据快速计算的问题,同时它还向上提供一个优雅的编程范式,使得数据分析人员通过编写类似于本机的数据分析程序即可实现集群并行计算。

Spark项目由多个紧密集成的组件组成。

核心是Spark Core组件

,它实现了Spark的基本功能,包括:任务调度、内存管理、错误恢复、与存储系统交互等模块,特别的,Spark Core还定义了弹性分布式数据集(RDD)的API,是Spark内存计算与并行计算的主要编程抽象。

在Spark Core上有一系列软件栈,用于满足了各种不同数据分析计算任务需求,包括连接关系型数据库或Hadoop Hive的SQL/HQL的查询组件Spark SQL,对实时数据进行流式计算的组件Spark Steaming,支持常见机器学习算法并行计算组件MLlib,支持并行图计算组件GraphX等。

为了进一步支持在数千个计算节点上的伸缩计算,Spark Core底层支持在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos,或者Spark自带的Standalone独立调度器。

Spark部署

安装Spark比较简单,只要在机器上配置好最新版JAVA环境,下载编译好的Spark软件包后即可在本地运行。当然,也可以根据具体环境,使用Maven编译需要的Spark功能。

Spark部署有两种方式,一是本地部署,二是集群部署。前者只需启动本地的交互式环境spark-shell.sh脚本即可,常用在本机快速程序测试,后者的应用场景更多些,具体根据集群环境不同,可部署在简易的Spark独立调度集群上、部署在Hadoop YARN集群上、或部署在Apache Mesos上等。

其中,Spark自带的独立调度器是最简单实现Spark集群环境的一种方式,只需在多台联网计算机上安装好Spark,然后在其中一台启动集群管理器(通过start-master.sh脚本),然后再在其他计算机上启动工作节点(通过start-slave.sh脚本),并连接到管理器上即可。

Spark编程

使用Spark编程,需要先在本机安装好Spark环境,然后启动Spark上下文管理器连接到本机(本地部署)或是集群上的集群管理器(集群部署),再使用Spark提供的抽象接口编程即可。

支持Spark的原生语言是Scala,一种支持JVM的脚本语言,可以避免其他语言在做数据转化过程的性能或信息丢失。但随着Spark项目的不断完善,使用Python和PySpark包、或者R和SparkR包进行Spark编程也都是不错的选择。

不论使用何种编程语言,使用Spark进行数据分析的关键在于掌握Spark抽象的编程范式,其基本流程包括4步:

初始化SparkContext

。SparkContext即是Spark上下文管理器(也称为驱动器程序),它主要负责向Spark工作节点上发送指令并获得计算结果,但数据分析人员无需关注具体细节,只需使用SparkContext接口编程即可。

创建RDD

。弹性分布数据集RDD是Spark在多机进行并行计算的核心数据结构,因此使用Spark进行数据分析,首先需使用SparkContext将外部数据读入到Spark集群内。

设计数据转化操作

。即操作的结果是返回一个新的RDD,即在图计算中只是一个中间节点。类比于Hadoop的Map()映射算子,但又不仅于此,Spark还支持filter()过滤算子、distinct()去重算子、sample()采样算子,以及多个RDD集合的交差补并等集合操作。

设计数据执行操作

。即操作的结果向SparkContext返回结果,或者将结果写入外部操作系统。类比于Hadoop的Rece()算子,按某函数操作两个数据并返回一个同类型的数据,此外Spark还支持collect()直接返回结果算子、count()计数算子、take()/top()返回部分数据算子、foreach()迭代计算算子等操作。

Spark编程范式的本质是有向无环图方式的惰性计算

,即当使用上述方式进行编程后,Spark将自动将上述RDD和转化算子转换为有向无环图的数据工作流,只有当触发执行算子时,才按需进行数据工作流的计算。此外,为进一步提高计算效率,Spark默认将在内存中执行,并自动进行内存分配管理,当然分析人员也可根据需求通过persist()算子将中间步骤数据显式的将内存数据持久化到磁盘中,以方便调试或复用。

在R环境下使用Spark实例

最新版的RStudio已经较完整的集成了Spark数据分析功能,可以在SparkR官方扩展接口基础上更方便的使用Spark,主要需要安装两个包,分别是sparklyr和dplyr。其中,sparklyr包提供了更简洁易用的Spark R编程接口,dplyr包提供了一个语法可扩展的数据操作接口,支持与主流SQL/NoSQL数据库连接,同时使数据操作与数据集数据结构解耦合,并且和Spark原生算子可基本对应。

若第一次运行,先在本机安装必要的包和Spark环境:

之后运行下面的小例子,可以发现,除了需要初始化SparkContext、导入RDD数据和导出数据外,其他数据处理操作都与在本机做数据分析是一样的。

此外,除了dplyr接口外,sparklyr还封装了一套特征工程和常用机器学习算法,足以满足80%常见的数据分析与挖掘工作,至于剩余的20%定制算法或是流处理、图计算等任务,便需要了解更多高阶的Spark接口来实现了。

热心网友 时间:2024-10-29 07:42

科普Spark,Spark是什么,如何使用Spark?

自己写的Spark入门实战教程,适合于有一定hadoop和数据分析经验的朋友。

Spark简介

Spark是一个开源的计算框架平台,使用该平台,数据分析程序可自动分发到集群中的不同机器中,以解决大规模数据快速计算的问题,同时它还向上提供一个优雅的编程范式,使得数据分析人员通过编写类似于本机的数据分析程序即可实现集群并行计算。

Spark项目由多个紧密集成的组件组成。

核心是Spark Core组件

,它实现了Spark的基本功能,包括:任务调度、内存管理、错误恢复、与存储系统交互等模块,特别的,Spark Core还定义了弹性分布式数据集(RDD)的API,是Spark内存计算与并行计算的主要编程抽象。

在Spark Core上有一系列软件栈,用于满足了各种不同数据分析计算任务需求,包括连接关系型数据库或Hadoop Hive的SQL/HQL的查询组件Spark SQL,对实时数据进行流式计算的组件Spark Steaming,支持常见机器学习算法并行计算组件MLlib,支持并行图计算组件GraphX等。

为了进一步支持在数千个计算节点上的伸缩计算,Spark Core底层支持在各种集群管理器上运行,包括Hadoop YARN、Apache Mesos,或者Spark自带的Standalone独立调度器。

Spark部署

安装Spark比较简单,只要在机器上配置好最新版JAVA环境,下载编译好的Spark软件包后即可在本地运行。当然,也可以根据具体环境,使用Maven编译需要的Spark功能。

Spark部署有两种方式,一是本地部署,二是集群部署。前者只需启动本地的交互式环境spark-shell.sh脚本即可,常用在本机快速程序测试,后者的应用场景更多些,具体根据集群环境不同,可部署在简易的Spark独立调度集群上、部署在Hadoop YARN集群上、或部署在Apache Mesos上等。

其中,Spark自带的独立调度器是最简单实现Spark集群环境的一种方式,只需在多台联网计算机上安装好Spark,然后在其中一台启动集群管理器(通过start-master.sh脚本),然后再在其他计算机上启动工作节点(通过start-slave.sh脚本),并连接到管理器上即可。

Spark编程

使用Spark编程,需要先在本机安装好Spark环境,然后启动Spark上下文管理器连接到本机(本地部署)或是集群上的集群管理器(集群部署),再使用Spark提供的抽象接口编程即可。

支持Spark的原生语言是Scala,一种支持JVM的脚本语言,可以避免其他语言在做数据转化过程的性能或信息丢失。但随着Spark项目的不断完善,使用Python和PySpark包、或者R和SparkR包进行Spark编程也都是不错的选择。

不论使用何种编程语言,使用Spark进行数据分析的关键在于掌握Spark抽象的编程范式,其基本流程包括4步:

初始化SparkContext

。SparkContext即是Spark上下文管理器(也称为驱动器程序),它主要负责向Spark工作节点上发送指令并获得计算结果,但数据分析人员无需关注具体细节,只需使用SparkContext接口编程即可。

创建RDD

。弹性分布数据集RDD是Spark在多机进行并行计算的核心数据结构,因此使用Spark进行数据分析,首先需使用SparkContext将外部数据读入到Spark集群内。

设计数据转化操作

。即操作的结果是返回一个新的RDD,即在图计算中只是一个中间节点。类比于Hadoop的Map()映射算子,但又不仅于此,Spark还支持filter()过滤算子、distinct()去重算子、sample()采样算子,以及多个RDD集合的交差补并等集合操作。

设计数据执行操作

。即操作的结果向SparkContext返回结果,或者将结果写入外部操作系统。类比于Hadoop的Rece()算子,按某函数操作两个数据并返回一个同类型的数据,此外Spark还支持collect()直接返回结果算子、count()计数算子、take()/top()返回部分数据算子、foreach()迭代计算算子等操作。

Spark编程范式的本质是有向无环图方式的惰性计算

,即当使用上述方式进行编程后,Spark将自动将上述RDD和转化算子转换为有向无环图的数据工作流,只有当触发执行算子时,才按需进行数据工作流的计算。此外,为进一步提高计算效率,Spark默认将在内存中执行,并自动进行内存分配管理,当然分析人员也可根据需求通过persist()算子将中间步骤数据显式的将内存数据持久化到磁盘中,以方便调试或复用。

在R环境下使用Spark实例

最新版的RStudio已经较完整的集成了Spark数据分析功能,可以在SparkR官方扩展接口基础上更方便的使用Spark,主要需要安装两个包,分别是sparklyr和dplyr。其中,sparklyr包提供了更简洁易用的Spark R编程接口,dplyr包提供了一个语法可扩展的数据操作接口,支持与主流SQL/NoSQL数据库连接,同时使数据操作与数据集数据结构解耦合,并且和Spark原生算子可基本对应。

若第一次运行,先在本机安装必要的包和Spark环境:

之后运行下面的小例子,可以发现,除了需要初始化SparkContext、导入RDD数据和导出数据外,其他数据处理操作都与在本机做数据分析是一样的。

此外,除了dplyr接口外,sparklyr还封装了一套特征工程和常用机器学习算法,足以满足80%常见的数据分析与挖掘工作,至于剩余的20%定制算法或是流处理、图计算等任务,便需要了解更多高阶的Spark接口来实现了。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
少儿学什么舞蹈 青年学什么舞蹈好 成年人学什么舞蹈 福州企业最低工资标准 2013年厦门的底薪是多少 生产要素的需求有哪些性质 生产要素的需求有何特点? 什么是生产要素需求 微观经济学要素需求什么是条件要素需求?它和要素需求有什么不同?_百度... 养宠物的人遵守规则,是不是就能和别人平安相处呢? ...spark 不能开机 ,连电脑、充电的时候只显示一个电池的标志, 电脑... 为什么我在淘宝上买了一个飞利浦spark 开了飞声之后低音没有一点下潜力... 谁有变形金刚电影版1~4的百度云资源? ...末日崩塌 分歧者2 蚁人。。谢了。。百度云资源。。 求。变形金刚。1-4。超清中英字幕 百度云 求变形金刚1-4的百度云资源 谢谢 变形金刚1-5百度云资源,要钱的绕道,谢谢 变形金刚1-4百度云,1080P,中英字幕。 变形金刚1到5高清百度云资源谢谢,要钱绕道 求变形金刚1-5资源百度云 1-4也行 谢谢! ...颜料由深到浅的序列 36普色和24色高级灰和八大灰 谢谢 急 新哈弗h6发动机哪产的? 2015上海游艇展有什么特色吗? 2015年上海游艇展的门票多少钱?怎么买到? 2015年上海游艇展期间有没有游艇体验活动? 请问2015的上海国际游艇展上毅宏游艇将发布全新的游艇众筹计划吗?有... 十七岁算未成年吗 ...腾讯被骗,很多人是看笑话而不是对行骗者的讨伐,正常吗? 历代志下9章1至12节怎样解释 求解释!周易算命大师请进。 十二生肖的动物都有什么动物名字 我想为自己QQ空间起一个关于科比的非主流名称 帮取去一个QQ昵称,含有关于科比,最好有繁体字 3015扁皮筋什么意思 党的十六大的主要内容是什么? 党的十六大报告指出以什么为重点? 美丽的晋城作文 时空线索被鳄鱼吃掉的是谁 在《天龙八部》中,段正淳的那些女儿,都是段誉的妹妹,那不就是说明是刀... 拳皇97 雅典娜 玛丽 大蛇 出场的背景音乐!!! 出场的背景音乐!!! 拳皇97大蛇队背景音乐 求拳皇97里大蛇七加社那一队主题曲"Rhythmic hallucination"的乐谱... 有人话暗恋一个人是一件很痛苦的事,为了她可以付出一切~~~,这是真... 暗恋一个人会不会是很痛苦的一件事? 人们常用的“84”消毒液的主要成分是 [ ] A.NaClB.NaClO C.双氧水D... 求作业答案:"84消毒液"的主要成分 图片中高中物理题画圈部分不明白,求详细讲解分析,谢谢! 高中物理,画圈的什么意思 高中物理。画圈部分为什么他们三个的合场强为零? 图片中高中物理题(画圈的那道小题) 不懂,盼高手详细分析讲解,谢谢!_百...