Spark安装详细教程：Spark本地安装示例

作者：张老师浏览次数： 2020-02-14 17:24

作为大数据领域重要的技术支持框架，Spark的性能已经得到了广泛地认可，并且成为越来越多的企业的选择，而相应地，大数据技术开发人员，掌握Spark技术也能获得更好的职场竞争力。今天我们就为大数据初级入门学习者们，分享一份Spark安装详细教程，一起走进Spark技术学习。

Spark安装部署根据实际的需求有本地模式、伪分布式模式等，这里我们从最基础的本地模式安装搭建开始——

第一步：下载Apache Spark

从官网下载Apache Spark的最新版本。解压并移动压缩文件:

tar xzvf spark-2.4.4-bin-hadoop2.7.tgz

mv spark-2.4.4-bin-hadoop2.7 spark

sudo mv spark//usr/lib/

第二步：安装JAVA

确保在系统中安装了JAVA。强烈推荐JAVA 8，因为众所周知，Spark2在JAVA 9在兼容性上存在问题：

sudo apt install default-jre

sudo apt install openjdk-8-jdk

第三步：安装Scala构建工具(SBT)

SBT是Scala构建工具的缩写，负责管理你的Spark项目以及你在代码中使用的库的依赖关系。

注意，如果你使用的是PySpark，就不需要安装它。但是如果你使用JAVA或Scala构建Spark应用程序，那么你需要在你的机器上安装SBT。运行以下命令安装SBT:

echo"deb https://dl.bintray.com/sbt/debian/"|sudo tee-a/etc/apt/sources.list.d/sbt.list

curl-sL"https://keyserver.ubuntu.com/pks/lookup?op=get&search=0x2EE0EA64E40A89B84B2DF73499E82A75642AC823"|sudo apt-key add

sudo apt-get update

sudo apt-get install sbt

第四步：配置SPARK

接下来，打开Spark的配置目录，复制默认的Spark环境模板。它已经以spark-env.sh.template的形式出现了。使用编辑器打开:

cd/usr/lib/spark/conf/

cp spark-env.sh.template spark-env.sh

sudo gedit spark-env.sh

现在，在文件spark-env.sh中。添加JAVA_HOME，并将内存限制SPARK_WORKER_MEMORY进行赋值。这里，我把它分配为4GB:

##添加变量

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

SPARK_WORKER_MEMORY=4g

第五步：设置Spark环境变量

使用下面的命令打开并编辑bashrc文件。这个bashrc文件是一个脚本，每当你开始一个新的终端会话就会执行:

##打开bashrc

sudo gedit~/bashrc

文件中添加以下环境变量:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export SBT_HOME=/usr/share/sbt/bin/sbt-launch.jar

export SPARK_HOME=/usr/lib/spark

export PATH=$PATH:$JAVA_HOME/bin

export PATH=$PATH:$SBT_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

export PYSPARK_PYTHON=python3

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

现在，更新bashrc文件。这将在更新脚本的情况下重新启动终端会话:

source~/.bashrc

现在，在终端中输入pyspark，它将在默认浏览器中打开Jupyter和一个自动初始化变量名为sc的Spark环境(它是Spark服务的入口点)。

以上就是今天关于Spark安装详细教程的介绍了，在Spark学习阶段，建议大家都要实操一下Spark安装，这是基础的要求，随着之后学习的深入，还可以进行真正的分布式或者伪分布式练习。成都加米谷大数据，大数据技术分享，大数据培训班课程，更多详情可联系客服了解！

标签：大数据编程 Spark大数据 Spark入门

上一篇：Spark启动流程：Spark运行架构解析
下一篇：Spark Hadoop原理：Spark和Hadoop工作流程

相关推荐

大家都在看

热点排行

推荐文章