当前主流的大数据计算框架：大数据计算框架解析

作者：张老师浏览次数： 2020-01-09 16:32

在大数据当中，首先需要解决的关键性问题，就是大数据计算的问题，针对于大数据的处理，完成对大规模数据的计算是重中之重。企业在搭建大数据平台的时候，也需要考虑清楚采取什么样的大数据计算框架。今天，我们就主要来为大家介绍几个当前主流的大数据计算框架。

现在大部分企业搭建大数据平台的首选框架，就是Hadoop，而基于Hadoop框架，就不得不提到MapReduce。

MapReduce是基于Hadoop框架下的分布式就算框架，同时也是编程模型，针对大规模的离线数据处理，MapReduce具有极大的优势，通过将较大的数据处理任务切割，分配到Hadoop计算机集群当中进行分别处理，处理完毕再将结果整合出来，确保大规模数据处理的高效性和准确性。

Hadoop框架对于大规模数据的处理，比较明显的一个局限就是更适用于离线数据的处理，数据处理的时效性不高，这也就导致了Hadoop在实时数据处理上的不足。

基于此，Spark的出现对Hadoop MapReduce的计算框架进行了补充，相比MapReduce在处理数据的过程中，中间结果都需要落地到磁盘上；Spark进行数据处理，计算主要基于内存进行，加上Spark的有向无环图优化，在官方的基准测试中，Spark运算速度比Hadoop能快一百倍以上。

总的来说，Spark是支持实时在线批处理数据，而随着大数据发展，又对流处理提出了需求，如果是Spark是批处理的代表性框架，那么Flink就是就是主要面向流处理的框架。在Flink之前，流式处理引擎比较著名的有Storm、Spark Streaming，但某些特性远不如Flink。

Flink支持在有界和无界数据流上做数据计算，以事件为单位，并且支持SQL、State、WaterMark，实现真正意义上的实时计算，数据处理的效率得到进一步提高。

以上就是当前主流的大数据计算框架的介绍了，目前来说，基于Hadoop能够实现大规模的离线数据处理，而后来的Spark、Flink，是对于实时数据处理的补充，并且这两者也能基于Hadoop框架进行工作，大大提升了Hadoop数据计算的能力。成都加米谷大数据，大数据技术知识分享，大数据开发培训2020春季班正在招生中，详情可咨询客服了解！

标签： Hadoop 大数据计算大数据框架

上一篇：HDFS和Hadoop的关系：Hadoop基于HDFS的数据存储问题
下一篇：Hadoop查找大数据：Hadoop数据查询组件

相关推荐

大家都在看

热点排行

推荐文章