主页 > 新闻资讯 > Spark难不难?关于Spark的学习建议

Spark难不难?关于Spark的学习建议

作者:张老师 浏览次数: 2020-02-12 15:33
在大数据技术知识的学习当中,Spark计算框架是重点之一,很多同学在准备学习大数据之前,就会产生各种各样的担心,诸如什么是Spark?Spark难不难?Spark要学多久?等等这样的问题。今天我们就这些问题,来给大家分享一些Spark的学习建议。

首先是关于Spark生态系统,在学习之前,大家需要先有一个基本的认识。

Spark难不难

Spark一定程度上来说,是对Hadoop系统的补充,因为Hadoop系统当中的分布式计算框架MapReduce,在大规模数据离线处理上表现强势,但是在面对实时数据处理上,存在一定的不足,而这也是Spark设计的初衷。

Spark可以说是在Hadoop的基础上进行改进,基于MapReduce的分布式计算模式,做了优化和改良,支持更多场景下的数据处理需求。Spark在计算处理中,将中间输出和结果保存在内存中,减少读写HDFS的次数,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark在设计之初,设计人员初衷就在于整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。

因此Spark生态圈以HDFS、S3、Techyon为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎;使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。

Spark难不难,从理论上来时说它采取的同样是分布式思想,所以如果是有一定的大数据技术基础的,包括Hadoop等的学习经验,那么Spark学习起来也会很容易入门,但是如果是零基础,可能确实需要花费更多的功夫,从打基础,到技术逐步深入学习。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>