作为大数据领域重要的技术支持框架,Spark的性能已经得到了广泛地认可,并且成为越来越多的企业的选择,而相应地,大数据技术开发人员,掌握Spark技术也能获得更好的职场竞争力。今天我们就为大数据初级入门学习者们,分享一份Spark安装详细教程,一起走进Spark技术学习。
Spark安装部署根据实际的需求有本地模式、伪分布式模式等,这里我们从最基础的本地模式安装搭建开始——
第一步:下载Apache Spark
从官网下载Apache Spark的最新版本。解压并移动压缩文件:
tar xzvf spark-2.4.4-bin-hadoop2.7.tgz
mv spark-2.4.4-bin-hadoop2.7 spark
sudo mv spark//usr/lib/
第二步:安装JAVA
确保在系统中安装了JAVA。强烈推荐JAVA 8,因为众所周知,Spark2在JAVA 9在兼容性上存在问题:
sudo apt install default-jre
sudo apt install openjdk-8-jdk
第三步:安装Scala构建工具(SBT)
SBT是Scala构建工具的缩写,负责管理你的Spark项目以及你在代码中使用的库的依赖关系。
注意,如果你使用的是PySpark,就不需要安装它。但是如果你使用JAVA或Scala构建Spark应用程序,那么你需要在你的机器上安装SBT。运行以下命令安装SBT:
echo"deb https://dl.bintray.com/sbt/debian/"|sudo tee-a/etc/apt/sources.list.d/sbt.list
curl-sL"https://keyserver.ubuntu.com/pks/lookup?op=get&search=0x2EE0EA64E40A89B84B2DF73499E82A75642AC823"|sudo apt-key add
sudo apt-get update
sudo apt-get install sbt
第四步:配置SPARK
接下来,打开Spark的配置目录,复制默认的Spark环境模板。它已经以spark-env.sh.template的形式出现了。使用编辑器打开:
cd/usr/lib/spark/conf/
cp spark-env.sh.template spark-env.sh
sudo gedit spark-env.sh
现在,在文件spark-env.sh中。添加JAVA_HOME,并将内存限制SPARK_WORKER_MEMORY进行赋值。这里,我把它分配为4GB:
##添加变量
JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
SPARK_WORKER_MEMORY=4g
第五步:设置Spark环境变量
使用下面的命令打开并编辑bashrc文件。这个bashrc文件是一个脚本,每当你开始一个新的终端会话就会执行:
##打开bashrc
sudo gedit~/bashrc
文件中添加以下环境变量:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SBT_HOME=/usr/share/sbt/bin/sbt-launch.jar
export SPARK_HOME=/usr/lib/spark
export PATH=$PATH:$JAVA_HOME/bin
export PATH=$PATH:$SBT_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
export PYSPARK_PYTHON=python3
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
现在,更新bashrc文件。这将在更新脚本的情况下重新启动终端会话:
source~/.bashrc
现在,在终端中输入pyspark,它将在默认浏览器中打开Jupyter和一个自动初始化变量名为sc的Spark环境(它是Spark服务的入口点)。
以上就是今天关于Spark安装详细教程的介绍了,在Spark学习阶段,建议大家都要实操一下Spark安装,这是基础的要求,随着之后学习的深入,还可以进行真正的分布式或者伪分布式练习。成都加米谷大数据,大数据技术分享,
大数据培训班课程,更多详情可联系客服了解!