Spark如何使用？Spark大数据处理场景

作者：张老师浏览次数： 2020-02-10 18:38

作为大数据领域的主流技术框架之一，Spark在面对各种场景的大数据处理任务上，都能给出适宜的解决方案，因此得到更多的重视和应用。那么Spark如何使用，今天我们从Spark大数据处理场景的角度出发，来为大家分享一些相关的知识点。

提到Spark，我们肯定还会联想起来的另一个大数据计算框架就是Hadoop，而Spark可以说是站在Hadoop的肩膀上，对于Hadoop在大数据处理上的局限性做了补充。

Hadoop系统的计算框架MapReduce，核心思想是分布式计算，而Spark的核心思想，同样是分布式计算，两者之间比较明显的一点差异就是，MapReduce依赖于磁盘进行计算，Spark依赖于内存进行计算。

Spark的计算逻辑，仍然与MapReduce是同一个模式，但是因为基于内存计算，不再需要反复从磁盘存储和读取数据，在迭代运算上效率更高。Spark更适合于迭代运算比较多的ML和DM运算。所以Spark的使用场景，更适用于于对实时计算、迭代运算的场景。

另外，Spark支持多种数据集操作类型，不像Hadoop，只有Map和Reduce两种程序操作。在Spark系统当中，可以有map、filter、flatMap、sample等Transformations操作；也可以有Count、collect、reduce等actions操作。

这些更多的数据集操作类型，给了开发人员更多的选择，在各个处理节点之间的通信模型，不再像Hadoop那样就是唯一的Data Shuffle一种模式，编程模型要灵活得多。

在容错性上，分布式数据集计算时通过checkpoint来实现容错，一个是checkpoint data，一个是logging the updates，用户可以根据需求来选择通过何种方式实现容错，保证数据的完整性和准确性。

并且，Spark与Hadoop可以实现很好的整合运用。Spark可以直接对HDFS进行数据的读写，与MapReduce运行于同集群中，共享存储资源与计算，在面对更加负责大数据处理任务时，能够更好地满足需求。

关于Spark如何使用，Spark大数据处理场景，相信大家看完以上的内容，也都有了初步的认识和了解了。在大数据计算处理上，Spark的优势确实不容忽视。成都加米谷大数据，大数据技术知识分享，大数据培训班常年开班中，详情可联系客服了解！

标签：大数据处理 Spark大数据 Spark入门

上一篇：Spark基础教程：Spark系统功能解析
下一篇：Spark入门书籍：Spark理论书籍推荐

相关推荐

大家都在看

热点排行

推荐文章