Spark使用教程：Spark安装运行简要流程

作者：张老师浏览次数： 2020-02-17 16:06

在Spark入门学习阶段，对于Spark如何安装使用等问题，是首先需要解决的问题之一。并且，作为主流的框架之一，Spark在大数据领域的应用也非常广泛，掌握Spark使用是技术开发人员的基本要求。今天我们就主要为大家分享一份Spark使用教程，简单介绍一下Spark安装运行方面的问题。

Spark的安装，其实不算难，但是涉及到需要配置环境参数等——

首先，将下载好的Spark包解压。

进入Spark的安装目录，将conf文件夹下的spark-env.sh.template复制一份到当前路径，并命名为spark-env.sh；

编辑spark-env.sh文件，添加相关的环境变量；

退出并保存。

进入Spark的安装目录，将conf文件夹下的spark-default.conf.template复制一份到当前路径，并命名为spark-default.conf，对其进行编辑，退出保存。

再次编辑spark-env.sh启用历史任务。

退出并保存。

进入sbin目录下，执行./start-all.sh即可启动。

如果需要启动Spark的历史人物查看，则执行start-即可

Spark Job Server

进入Spark Job Server的安装目录，依次执行：

sbt

exit

sbt job-server-tests/package

sbt

re-start

即可。

访问http://192.168.230.100:8090/即可查看Spark Job Server的Web界面。

使用命令curl--data-binary@/opt/spark-jobserver-develop-16fa7ad47a8b0a788e2918bfb52183deed2e77f6/job-server-tests/target/scala-2.10/job-server-tests_2.10-0.6.2-SNAPSHOT.jar 192.168.230.100:8090/jars/test来提交任务。

使用命令curl-d"input.string=a b c d a b see"'192.168.230.100/:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'来传入参数，测试运行任务。

Spark集群由Driver，Cluster Manager（Standalone、Yarn或Mesos），以及Worker Node组成。对于每个Spark应用程序，Worker Node上存在一个Executor进程，Executor进程中包括多个Task线程。

Spark运行流程：

Application首先被Driver构建DAG图并分解成Stage；

然后Driver向Cluster Manager申请资源；

Cluster Manager向某些Work Node发送征召信号；

被征召的Work Node启动Executor进程响应征召，并向Driver申请任务；

Driver分配Task给Work Node；

Executor以Stage为单位执行Task，期间Driver进行监控；

Driver收到Executor任务完成的信号后向Cluster Manager发送注销信号；

Cluster Manager向Work Node发送释放资源信号；

Work Node对应Executor停止运行。

以上就是今天为大家分享的Spark使用教程了，对于Spark的安装和简单的运行，可以参照以上的流程来尝试运行试试，Spark框架当中涉及到的更多的功能，还需要在学习的过程中逐步去深入探索。成都加米谷大数据，专业大数据培训机构，大数据学习课程，更多详情可联系客服了解！

标签：大数据学习 Spark大数据 Spark入门

上一篇：Spark入门指南：Spark核心组件原理
下一篇：Spark应用场景与案例：Spark框架的实际应用解析

相关推荐

大家都在看

热点排行

推荐文章