在Spark入门学习阶段,对于Spark如何安装使用等问题,是首先需要解决的问题之一。并且,作为主流的框架之一,Spark在大数据领域的应用也非常广泛,掌握Spark使用是技术开发人员的基本要求。今天我们就主要为大家分享一份Spark使用教程,简单介绍一下Spark安装运行方面的问题。
Spark的安装,其实不算难,但是涉及到需要配置环境参数等——
首先,将下载好的Spark包解压。
进入Spark的安装目录,将conf文件夹下的spark-env.sh.template复制一份到当前路径,并命名为spark-env.sh;
编辑spark-env.sh文件,添加相关的环境变量;
退出并保存。
进入Spark的安装目录,将conf文件夹下的spark-default.conf.template复制一份到当前路径,并命名为spark-default.conf,对其进行编辑,退出保存。
再次编辑spark-env.sh启用历史任务。
退出并保存。
进入sbin目录下,执行./start-all.sh即可启动。
如果需要启动Spark的历史人物查看,则执行start-即可
Spark Job Server
进入Spark Job Server的安装目录,依次执行:
sbt
exit
sbt job-server-tests/package
sbt
re-start
即可。
访问http://192.168.230.100:8090/即可查看Spark Job Server的Web界面。
使用命令curl--data-binary@/opt/spark-jobserver-develop-16fa7ad47a8b0a788e2918bfb52183deed2e77f6/job-server-tests/target/scala-2.10/job-server-tests_2.10-0.6.2-SNAPSHOT.jar 192.168.230.100:8090/jars/test来提交任务。
使用命令curl-d"input.string=a b c d a b see"'192.168.230.100/:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'来传入参数,测试运行任务。
Spark集群由Driver,Cluster Manager(Standalone、Yarn或Mesos),以及Worker Node组成。对于每个Spark应用程序,Worker Node上存在一个Executor进程,Executor进程中包括多个Task线程。
Spark运行流程:
Application首先被Driver构建DAG图并分解成Stage;
然后Driver向Cluster Manager申请资源;
Cluster Manager向某些Work Node发送征召信号;
被征召的Work Node启动Executor进程响应征召,并向Driver申请任务;
Driver分配Task给Work Node;
Executor以Stage为单位执行Task,期间Driver进行监控;
Driver收到Executor任务完成的信号后向Cluster Manager发送注销信号;
Cluster Manager向Work Node发送释放资源信号;
Work Node对应Executor停止运行。
以上就是今天为大家分享的Spark使用教程了,对于Spark的安装和简单的运行,可以参照以上的流程来尝试运行试试,Spark框架当中涉及到的更多的功能,还需要在学习的过程中逐步去深入探索。成都加米谷大数据,专业
大数据培训机构,大数据学习课程,更多详情可联系客服了解!