Hadoop和Spark的关系：Hadoop和Spark之间的抉择

作者：张老师浏览次数： 2020-02-06 14:28

在涉及到大数据处理框架的话题上时，Hadoop和Spark总是会生出很多的争议，争议的重点，自然是哪一个更好用，如果要搭建大数据平台，那么两者之间该如何抉择？今天，我们就从Hadoop和Spark的关系和聊一聊，Hadoop和Spark之间该如何抉择。

首先说Hadoop，Hadoop在大数据领域可以说是成名已久，占据着相当重要的地位，很明显的一点就是，大数据相关的课程培训，Hadoop一定是重中之重的内容，各种大数据相关职位的面试，Hadoop相关的问题是一定会问到的。

Hadoop的核心，在于分布式架构，通过分布式架构搭建起集群环境，将大规模的数据处理任务进行分解，各自完成一部分，再整合起来，这样的大大提升了数据处理的性能。并且因为集群环境对于硬件设备的要求没那么高，所以对企业而言能够很好的控制成本。

而在Hadoop快速占领市场的同时，Hadoop的应用场景不断扩充，也逐渐遇到了数据处理上的局限性问题，Hadoop的分布式计算框架MapReduce，在离线数据处理上具有极大的优势，但是在实时数据处理上，劣势就显现出来了。

MapReduce在进行数据处理时，数据流是非循环的，并且由于数据存储在磁盘上，在计算时，需要反复去读取磁盘，大大降低了数据处理的效率。而Spark的出现，很大程度上就是为了解决MapReduce在处理迭代算法上的缺陷。

严格来说，Spark也可以算作是MapReduce计算模式，但是不同于MapReduce局限于map和reduce的操作，Spark还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活。

Spark采取的是内存计算，基于分布式存储的数据文件，在分布式集群当中进行内存计算，计算的中间结果，也放在内存上，多以迭代运算的效率也高得多。

总结Hadoop和Spark的关系，两者都是大数据计算框架，也都是基于分布式思想而设计，但是在数据计算任务上，Spark对于Hadoop在实时计算上的不足做了补充，数据处理的效率也得到很大的提升。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班正在招生中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Flink和Spark对比：Spark和Flink处理数据的异同
下一篇：Spark怎么学？Spark入门路线规划

相关推荐

大家都在看

热点排行

推荐文章