Spark面试题：大数据工程师Spark面试题目

作者：张老师浏览次数： 2020-02-21 17:02

大数据行业的繁荣，越来越多的企业布局大数据业务，因而整个行业对大数据人才的需求也在不断上升。尤其是技术开发方向的大数据工程师，作为高新技术岗位，薪水非常诱人。在面试当中，涉及到Spark框架方面的知识，面试到的几率非常高。那么今天我们就来为大家分享一些常见的Spark面试题。

问：Spark有哪些特点？

答案要点：高效性、易用性、通用性、兼容性等，基于每个特点，还要给出相应的说明，是因为什么具有这样的特点。

问：对Spark生态圈有多少了解？

答案要点：对于Spark生态圈的各个组件，包括机器学习（MLib）、图算法（GraphX）、流式计算（Spark Streaming）和数据仓库（Spark SQL）等，针对各个组件给出相应的见解。

Spark生态圈以HDFS、S3、Techyon为底层存储引擎，以Yarn、Mesos和Standlone作为资源调度引擎；使用Spark，可以实现MapReduce应用；基于Spark，Spark SQL可以实现即席查询，Spark Streaming可以处理实时应用，MLib可以实现机器学习算法，GraphX可以实现图计算，SparkR可以实现复杂数学计算。

问：Spark与Hadoop比较？怎么选择？

回答要点：Spark和Hadoop各自的优缺点，各自的特点，适合什么样的场景，在实际应用场景当中如何选择，以及Spark Hadoop联合开发……

问：Spark和Storm比较？怎么选择？

回答要点：Spark和Hadoop各自的优缺点，各自的竞争优势，适合什么样的场景，在实际应用场景当中如何选择……这两种技术之间的一个主要区别是，Spark进行数据的并行计算，而Storm则是任务的并行计算。无论是那种方法，都有它表现价值的一方面。

问：RDD的核心概念？作业流程？

回答要点：

Client：客户端进程，负责提交作业到Master。

Master:Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动分配Driver的资源和启动Executor的资源。

Worker：Standalone模式中slave节点上的守护进程，负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，启动Driver和Executor。

Driver：一个Spark作业运行时包括一个Driver进程，也是作业的主进程，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。

Executor：即真正执行作业的地方，一个集群一般包含多个Executor，每个Executor接收Driver的命令Launch Task，一个Executor可以执行一到多个Task。

以上就是今天为大家分享的Spark面试题以及针对性的一些解答技巧，随着Spark在市场上的占有率进一步提升，作为大数据工程师，对于Spark框架的理论要做到深入理解和掌握。成都加米谷大数据，大数据知识分享，大数据培训班学习，课程详情及学习资料可联系客服领取！

标签：大数据面试大数据工程师 Spark大数据

上一篇：Hadoop和Hbase的关系：Hadoop Hbase详解
下一篇：Spark内存越大越好吗？Spark动态内存管理

相关推荐

大家都在看

热点排行

推荐文章