主页 > 新闻资讯 > Hadoop和Spark联合:Hadoop与Spark框架的协同开发

Hadoop和Spark联合:Hadoop与Spark框架的协同开发

作者:张老师 浏览次数: 2020-02-12 17:09
在大数据计算领域,Hadoop和Spark是常常被拿来比较的两个框架,同样是基于分布式架构来设计,但是两者在大数据处理上各自有着各自的运行逻辑,在大规模数据处理上,也各有其长处。因此近年来的趋势,是Hadoop和Spark联合开发,更好地来满足企业大数据处理的需求。

事实上,在Spark出现之初,Spark一度被看做Hadoop的替代者,相比Hadoop,Spark在很多方面都有明显的Yoshiki,例如支持更多的API以及编程语言,数据计算效率可以比Hadoop快100倍,等等,这样的大趋势下,导致了很多人认为,Hadoop将会被Spark取代。

Hadoop和Spark联合

但是事实如何呢?事实就是到2020年了,Hadoop也并没有被Spark替代,仍然是企业大数据平台框架的主流选择之一。

这是因为在实际的大数据处理经验当中,我们发现,Hadoop作为一个全面的大数据系统平台框架,它的分布式存储系统HDFS,是Spark正好缺乏的。Spark在数据计算上表现强劲,但是仍然需要分布式文件系统的支持。

因而Hadoop和Spark联合成为新的趋势。本来,Spark设计人员的初衷,也是讲Spark作为Hadoop的MapReduce框架的补充,尤其是在针对实时数据流计算上,Spark确实要比MapReduce的计算过程优化了很多。

Spark提供的数据集操作类型有很多种,不仅限于Map和Reduce两种操作,还支持filter、flatMap、sample、union、join等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count、collect、reduce、lookup、save等多种actions操作。

更多的数据集操作类型,给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

总的来说,Hadoop和Spark联合是实际大数据发展当中的更优化方案,Hadoop为Spark提供其缺失的功能支持,而Spark基于实时内存计算,大大提高了数据计算的效率,Hadoop和Spark系统运行,才能更好地满足大数据处理需求。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>