如何学Spark？大数据技术基础入门分享

作者：张老师浏览次数： 2020-02-07 18:51

在大数据技术阶段的学习上，Spark作为重要的大数据计算框架，这是大家都避不开的。不少同学常常来问老师，到底该如何学Spark？对于这个问题，我们所能给出的建议就是，打牢基础，一步一步前进。

零基础小白学习Spark入门，首先要学的是Scala语言，这是Spark的编程框架语言，至少想要看懂Spark源码，你得先会Scala才行。Spark的编程以简洁著称，最初发布的1.0版本，Spark核心代码也就4万行，这也得益于Scala语言的简洁性。

接下来就是环境搭建，这一点和Hadoop也是一样的，先搭建起集群环境，然后逐步去了解系统的架构、原理、组件等，逐步建立起分布式数据处理的思维。

搭建集群之后，第一个要学习RDD编程，RDD是弹性分布式数据集，然后是Spark SQL，再往下是Spark Streaming，之后是MLlib（相当于Hadoop中的Mahout），如果想再继续深入可以学习图计算GraphX。

而对于有一定经验的转行人员，尤其是本来就是IT从业人员的，本身学习大数据，不管是Hadoop还是Spark，肯定是要比零基础小白要更快上手。

Spark，大概从2013年开始传入国内，成为传闻中会代替Hadoop的存在，但是至今为止，Hadoop还是占据主流，Spark也获得了重要的地位，两者之间不是完全的竞争关系，更多是协同工作，实现更高效的数据处理。

总体来说，Hadoop更加偏向于离线批处理，Spark既可以进行离线批处理计算，也可以进行交互式计算，还可以对数据流进行准实时计算。

但是Spark生态体系，缺乏一个重要的支持组件，那就是分布式存储，一个类似于Hadoop的HDFS的分布式文件系统。Spark缺少像HDFS这样一个框架，所以Spark要依赖于HDFS来进行存储。Spark在进行开发时也会用到YARN平台或者Mesos。

以上就是关于如何学Spark的一点简单介绍了。在大数据技术的学习上，Spark确实是非常重要的一部分，也是重难点，但是只要循序渐进去学习，掌握起来其实也没有那么难。成都加米谷大数据，大数据技术分享，大数据培训班每月开班中，详情可联系客服了解！

标签：大数据学习 Spark大数据 Spark入门

上一篇：学Hadoop还是Spark？Hadoop和Spark哪个更重要
下一篇：Spark调优：Spark框架数据处理调优的思路

相关推荐

大家都在看

热点排行

推荐文章