如何运行含spark的python脚本

发布网友发布时间：2022-04-23 20:27

我来回答

共2个回答

懂视网时间：2022-04-07 15:44

spark能跑Python么？

spark是可以跑Python程序的。python编写好的算法，或者扩展库的，比如sklearn都可以在spark上跑。直接使用spark的mllib也是可以的，大部分算法都有。

Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等。

本次实验是搭有spark环境的linux下跑的，spark版本为1.6.1，相当于在在spark本地执行，spark文件放在/opt/moudles/spark-1.6.1/（代码中会看到）

编写python测试程序

#test.py文件
# -*- coding:utf-8 -*-
import os
import sys
#配置环境变量并导入pyspark
os.environ['SPARK_HOME'] = r'/opt/moudles/spark-1.6.1'
sys.path.append("/opt/moudles/spark-1.6.1/python")
sys.path.append("/opt/moudles/spark-1.6.1/python/lib/py4j-0.9-src.zip")
from pyspark import SparkContext, SparkConf
appName ="spark_1" #应用程序名称
master= "spark://hadoop01:7077"#hadoop01为主节点hostname，请换成自己的主节点主机名称
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
res = distData.reduce(lambda a, b: a + b)
print("===========================================")
print (res)
print("===========================================")

执行python程序

执行如下命令

python test.py

执行与结果分别如下图所示：

热心网友时间：2022-04-07 12:52

1、Spark脚本提交/运行/部署1.1spark-shell（交互窗口模式）运行Spark-shell需要指向申请资源的standalonespark集群信息，其参数为MASTER，还可以指定executor及driver的内存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark://192.168.180.216:7077spark-shell启动完后，可以在交互窗口中输入Scala命令，进行操作，其中spark-shell已经默认生成sc对象，可以用：valuser_rdd1=sc.textFile(inputpath,10)读取数据资源等。1.2spark-shell（脚本运行模式）上面方法需要在交互窗口中一条一条的输入scala程序；将scala程序保存在test.scala文件中，可以通过以下命令一次运行该文件中的程序代码：sudospark-shell--executor-memory5g--driver-memory1g--masterspark//192.168.180.216:7077