CentOS7安装pyspark(python3)
发布网友
发布时间:2024-08-16 13:29
我来回答
共1个回答
热心网友
时间:2024-08-18 18:23
本文档详细记录了在CentOS7的最小化系统虚拟机中安装pyspark的步骤,涉及的版本均为2019年1月的最新版,包括Java 1.8.0,Hadoop 3.0.3,Python 3.7.2和Spark 2.4.0。
首先,从下载链接下载所有需要的软件包,存储在/root/download目录下,然后在/usr/local目录下进行安装。在CentOS 7的配置中,要确保网络连接自动启动,设置静态IP,并安装wget以进行后续操作。
安装Java时,将下载的文件解压到/usr/local/java,然后编辑环境变量文件。通过检查是否显示Java安装成功,确认安装过程已成功。
安装Hadoop,将文件解压到/usr/local/hadoop,编辑环境变量,配置文件中的路径和用户设置,初始化HDFS文件系统,创建hadoop3用户,并设置SSH免密码登录。启动HDFS和YARN后,可通过jps命令验证服务运行,并关闭防火墙服务以允许外部访问。
Python3的安装则需要添加必要的软件源,进行解压和编译,创建python3和pip3的软链接,并确认安装成功。编辑yum和urlgrabber-ext-down以适应Python3环境。
最后,编辑/etc/profile,为pyspark设置环境变量,启动Spark后,看到Spark界面即表示安装完成。