主页 > 新闻资讯 > 如何学Spark?大数据技术基础入门分享

如何学Spark?大数据技术基础入门分享

作者:张老师 浏览次数: 2020-02-07 18:51
在大数据技术阶段的学习上,Spark作为重要的大数据计算框架,这是大家都避不开的。不少同学常常来问老师,到底该如何学Spark?对于这个问题,我们所能给出的建议就是,打牢基础,一步一步前进。

零基础小白学习Spark入门,首先要学的是Scala语言,这是Spark的编程框架语言,至少想要看懂Spark源码,你得先会Scala才行。Spark的编程以简洁著称,最初发布的1.0版本,Spark核心代码也就4万行,这也得益于Scala语言的简洁性。

如何学Spark

接下来就是环境搭建,这一点和Hadoop也是一样的,先搭建起集群环境,然后逐步去了解系统的架构、原理、组件等,逐步建立起分布式数据处理的思维。

搭建集群之后,第一个要学习RDD编程,RDD是弹性分布式数据集,然后是Spark SQL,再往下是Spark Streaming,之后是MLlib(相当于Hadoop中的Mahout),如果想再继续深入可以学习图计算GraphX。

而对于有一定经验的转行人员,尤其是本来就是IT从业人员的,本身学习大数据,不管是Hadoop还是Spark,肯定是要比零基础小白要更快上手。

Spark,大概从2013年开始传入国内,成为传闻中会代替Hadoop的存在,但是至今为止,Hadoop还是占据主流,Spark也获得了重要的地位,两者之间不是完全的竞争关系,更多是协同工作,实现更高效的数据处理。

总体来说,Hadoop更加偏向于离线批处理,Spark既可以进行离线批处理计算,也可以进行交互式计算,还可以对数据流进行准实时计算。

但是Spark生态体系,缺乏一个重要的支持组件,那就是分布式存储,一个类似于Hadoop的HDFS的分布式文件系统。Spark缺少像HDFS这样一个框架,所以Spark要依赖于HDFS来进行存储。Spark在进行开发时也会用到YARN平台或者Mesos。

以上就是关于如何学Spark的一点简单介绍了。在大数据技术的学习上,Spark确实是非常重要的一部分,也是重难点,但是只要循序渐进去学习,掌握起来其实也没有那么难。成都加米谷大数据,大数据技术分享,大数据培训班每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>