主页 > 新闻资讯 > 当前主流的大数据计算框架:大数据计算框架解析

当前主流的大数据计算框架:大数据计算框架解析

作者:张老师 浏览次数: 2020-01-09 16:32
在大数据当中,首先需要解决的关键性问题,就是大数据计算的问题,针对于大数据的处理,完成对大规模数据的计算是重中之重。企业在搭建大数据平台的时候,也需要考虑清楚采取什么样的大数据计算框架。今天,我们就主要来为大家介绍几个当前主流的大数据计算框架。

现在大部分企业搭建大数据平台的首选框架,就是Hadoop,而基于Hadoop框架,就不得不提到MapReduce。

当前主流的大数据计算框架

MapReduce是基于Hadoop框架下的分布式就算框架,同时也是编程模型,针对大规模的离线数据处理,MapReduce具有极大的优势,通过将较大的数据处理任务切割,分配到Hadoop计算机集群当中进行分别处理,处理完毕再将结果整合出来,确保大规模数据处理的高效性和准确性。

Hadoop框架对于大规模数据的处理,比较明显的一个局限就是更适用于离线数据的处理,数据处理的时效性不高,这也就导致了Hadoop在实时数据处理上的不足。

基于此,Spark的出现对Hadoop MapReduce的计算框架进行了补充,相比MapReduce在处理数据的过程中,中间结果都需要落地到磁盘上;Spark进行数据处理,计算主要基于内存进行,加上Spark的有向无环图优化,在官方的基准测试中,Spark运算速度比Hadoop能快一百倍以上。

总的来说,Spark是支持实时在线批处理数据,而随着大数据发展,又对流处理提出了需求,如果是Spark是批处理的代表性框架,那么Flink就是就是主要面向流处理的框架。在Flink之前,流式处理引擎比较著名的有Storm、Spark Streaming,但某些特性远不如Flink。

Flink支持在有界和无界数据流上做数据计算,以事件为单位,并且支持SQL、State、WaterMark,实现真正意义上的实时计算,数据处理的效率得到进一步提高。

以上就是当前主流的大数据计算框架的介绍了,目前来说,基于Hadoop能够实现大规模的离线数据处理,而后来的Spark、Flink,是对于实时数据处理的补充,并且这两者也能基于Hadoop框架进行工作,大大提升了Hadoop数据计算的能力。成都加米谷大数据,大数据技术知识分享,大数据开发培训2020春季班正在招生中,详情可咨询客服了解!
热点排行
推荐文章
立即申请>>