主页 > 新闻资讯 > Spark面试题:大数据工程师Spark面试题目

Spark面试题:大数据工程师Spark面试题目

作者:张老师 浏览次数: 2020-02-21 17:02
大数据行业的繁荣,越来越多的企业布局大数据业务,因而整个行业对大数据人才的需求也在不断上升。尤其是技术开发方向的大数据工程师,作为高新技术岗位,薪水非常诱人。在面试当中,涉及到Spark框架方面的知识,面试到的几率非常高。那么今天我们就来为大家分享一些常见的Spark面试题。

Spark面试题

问:Spark有哪些特点?

答案要点:高效性、易用性、通用性、兼容性等,基于每个特点,还要给出相应的说明,是因为什么具有这样的特点。

问:对Spark生态圈有多少了解?

答案要点:对于Spark生态圈的各个组件,包括机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等,针对各个组件给出相应的见解。

Spark生态圈以HDFS、S3、Techyon为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎;使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。

问:Spark与Hadoop比较?怎么选择?

回答要点:Spark和Hadoop各自的优缺点,各自的特点,适合什么样的场景,在实际应用场景当中如何选择,以及Spark Hadoop联合开发……

问:Spark和Storm比较?怎么选择?

回答要点:Spark和Hadoop各自的优缺点,各自的竞争优势,适合什么样的场景,在实际应用场景当中如何选择……这两种技术之间的一个主要区别是,Spark进行数据的并行计算,而Storm则是任务的并行计算。无论是那种方法,都有它表现价值的一方面。

问:RDD的核心概念?作业流程?

回答要点:

Client:客户端进程,负责提交作业到Master。

Master:Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动分配Driver的资源和启动Executor的资源。

Worker:Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动Driver和Executor。

Driver:一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。

Executor:即真正执行作业的地方,一个集群一般包含多个Executor,每个Executor接收Driver的命令Launch Task,一个Executor可以执行一到多个Task。

以上就是今天为大家分享的Spark面试题以及针对性的一些解答技巧,随着Spark在市场上的占有率进一步提升,作为大数据工程师,对于Spark框架的理论要做到深入理解和掌握。成都加米谷大数据,大数据知识分享,大数据培训班学习,课程详情及学习资料可联系客服领取!
热点排行
推荐文章
立即申请>>