主页 > 新闻资讯 > Spark安装详细教程:Spark本地安装示例

Spark安装详细教程:Spark本地安装示例

作者:张老师 浏览次数: 2020-02-14 17:24
作为大数据领域重要的技术支持框架,Spark的性能已经得到了广泛地认可,并且成为越来越多的企业的选择,而相应地,大数据技术开发人员,掌握Spark技术也能获得更好的职场竞争力。今天我们就为大数据初级入门学习者们,分享一份Spark安装详细教程,一起走进Spark技术学习。

Spark安装详细教程

Spark安装部署根据实际的需求有本地模式、伪分布式模式等,这里我们从最基础的本地模式安装搭建开始——

第一步:下载Apache Spark

从官网下载Apache Spark的最新版本。解压并移动压缩文件:

tar xzvf spark-2.4.4-bin-hadoop2.7.tgz

mv spark-2.4.4-bin-hadoop2.7 spark

sudo mv spark//usr/lib/

第二步:安装JAVA

确保在系统中安装了JAVA。强烈推荐JAVA 8,因为众所周知,Spark2在JAVA 9在兼容性上存在问题:

sudo apt install default-jre

sudo apt install openjdk-8-jdk

第三步:安装Scala构建工具(SBT)

SBT是Scala构建工具的缩写,负责管理你的Spark项目以及你在代码中使用的库的依赖关系。

注意,如果你使用的是PySpark,就不需要安装它。但是如果你使用JAVA或Scala构建Spark应用程序,那么你需要在你的机器上安装SBT。运行以下命令安装SBT:

echo"deb https://dl.bintray.com/sbt/debian/"|sudo tee-a/etc/apt/sources.list.d/sbt.list

curl-sL"https://keyserver.ubuntu.com/pks/lookup?op=get&search=0x2EE0EA64E40A89B84B2DF73499E82A75642AC823"|sudo apt-key add

sudo apt-get update

sudo apt-get install sbt

第四步:配置SPARK

接下来,打开Spark的配置目录,复制默认的Spark环境模板。它已经以spark-env.sh.template的形式出现了。使用编辑器打开:

cd/usr/lib/spark/conf/

cp spark-env.sh.template spark-env.sh

sudo gedit spark-env.sh

现在,在文件spark-env.sh中。添加JAVA_HOME,并将内存限制SPARK_WORKER_MEMORY进行赋值。这里,我把它分配为4GB:

##添加变量

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

SPARK_WORKER_MEMORY=4g

第五步:设置Spark环境变量

使用下面的命令打开并编辑bashrc文件。这个bashrc文件是一个脚本,每当你开始一个新的终端会话就会执行:

##打开bashrc

sudo gedit~/bashrc

文件中添加以下环境变量:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export SBT_HOME=/usr/share/sbt/bin/sbt-launch.jar

export SPARK_HOME=/usr/lib/spark

export PATH=$PATH:$JAVA_HOME/bin

export PATH=$PATH:$SBT_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

export PYSPARK_PYTHON=python3

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

现在,更新bashrc文件。这将在更新脚本的情况下重新启动终端会话:

source~/.bashrc

现在,在终端中输入pyspark,它将在默认浏览器中打开Jupyter和一个自动初始化变量名为sc的Spark环境(它是Spark服务的入口点)。

以上就是今天关于Spark安装详细教程的介绍了,在Spark学习阶段,建议大家都要实操一下Spark安装,这是基础的要求,随着之后学习的深入,还可以进行真正的分布式或者伪分布式练习。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>