大数据行业的繁荣,越来越多的企业布局大数据业务,因而整个行业对大数据人才的需求也在不断上升。尤其是技术开发方向的大数据工程师,作为高新技术岗位,薪水非常诱人。在面试当中,涉及到Spark框架方面的知识,面试到的几率非常高。那么今天我们就来为大家分享一些常见的Spark面试题。
问:Spark有哪些特点?
答案要点:高效性、易用性、通用性、兼容性等,基于每个特点,还要给出相应的说明,是因为什么具有这样的特点。
问:对Spark生态圈有多少了解?
答案要点:对于Spark生态圈的各个组件,包括机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等,针对各个组件给出相应的见解。
Spark生态圈以HDFS、S3、Techyon为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎;使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。
问:Spark与Hadoop比较?怎么选择?
回答要点:Spark和Hadoop各自的优缺点,各自的特点,适合什么样的场景,在实际应用场景当中如何选择,以及Spark Hadoop联合开发……
问:Spark和Storm比较?怎么选择?
回答要点:Spark和Hadoop各自的优缺点,各自的竞争优势,适合什么样的场景,在实际应用场景当中如何选择……这两种技术之间的一个主要区别是,Spark进行数据的并行计算,而Storm则是任务的并行计算。无论是那种方法,都有它表现价值的一方面。
问:RDD的核心概念?作业流程?
回答要点:
Client:客户端进程,负责提交作业到Master。
Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动分配Driver的资源和启动Executor的资源。
Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。
Driver:一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。
Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。
以上就是今天为大家分享的Spark面试题以及针对性的一些解答技巧,随着Spark在市场上的占有率进一步提升,作为大数据工程师,对于Spark框架的理论要做到深入理解和掌握。成都加米谷大数据,大数据知识分享,
大数据培训班学习,课程详情及学习资料可联系客服领取!