主页 > 新闻资讯 > Spark如何使用?Spark大数据处理场景

Spark如何使用?Spark大数据处理场景

作者:张老师 浏览次数: 2020-02-10 18:38
作为大数据领域的主流技术框架之一,Spark在面对各种场景的大数据处理任务上,都能给出适宜的解决方案,因此得到更多的重视和应用。那么Spark如何使用,今天我们从Spark大数据处理场景的角度出发,来为大家分享一些相关的知识点。

提到Spark,我们肯定还会联想起来的另一个大数据计算框架就是Hadoop,而Spark可以说是站在Hadoop的肩膀上,对于Hadoop在大数据处理上的局限性做了补充。

Spark如何使用

Hadoop系统的计算框架MapReduce,核心思想是分布式计算,而Spark的核心思想,同样是分布式计算,两者之间比较明显的一点差异就是,MapReduce依赖于磁盘进行计算,Spark依赖于内存进行计算。

Spark的计算逻辑,仍然与MapReduce是同一个模式,但是因为基于内存计算,不再需要反复从磁盘存储和读取数据,在迭代运算上效率更高。Spark更适合于迭代运算比较多的ML和DM运算。所以Spark的使用场景,更适用于于对实时计算、迭代运算的场景。

另外,Spark支持多种数据集操作类型,不像Hadoop,只有Map和Reduce两种程序操作。在Spark系统当中,可以有map、filter、flatMap、sample等Transformations操作;也可以有Count、collect、reduce等actions操作。

这些更多的数据集操作类型,给了开发人员更多的选择,在各个处理节点之间的通信模型,不再像Hadoop那样就是唯一的Data Shuffle一种模式,编程模型要灵活得多。

在容错性上,分布式数据集计算时通过checkpoint来实现容错,一个是checkpoint data,一个是logging the updates,用户可以根据需求来选择通过何种方式实现容错,保证数据的完整性和准确性。

并且,Spark与Hadoop可以实现很好的整合运用。Spark可以直接对HDFS进行数据的读写,与MapReduce运行于同集群中,共享存储资源与计算,在面对更加负责大数据处理任务时,能够更好地满足需求。

关于Spark如何使用,Spark大数据处理场景,相信大家看完以上的内容,也都有了初步的认识和了解了。在大数据计算处理上,Spark的优势确实不容忽视。成都加米谷大数据,大数据技术知识分享,大数据培训班常年开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>