Spark和Hadoop哪个好？Hadoop Spark对比分析

作者：张老师浏览次数： 2020-02-06 17:52

针对于大数据的处理，Spark和Hadoop可以说是现在最受关注的两个框架系统，Hadoop更早开始发行，在早期可以说是独霸市场，但是随着面临新的数据处理问题，Spark等后起之秀也开始分割市场。常常听到很多人表示疑惑，都是大数据处理框架，Spark和Hadoop哪个好？今天我们就来做一个简单的对比分析。

我们从体系结构、性能、成本等几个方面来做对比——

1、架构

Hadoop和Spark，其实都是基于分布式思想设计的。从架构上来说，Hadoop需要先将数据引入分布式文件系统HDFS当中，然后基于HDFS来实现计算，也就是通过MapReduce来完成数据计算。

MapReduce算法位于HDFS之上，由JobTracker组成。YARN分配JobTracker加速并监控它们的资源，以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘。

而Spark，自身没有分布式文件系统，只能对已经进行分布式存储的数据进行处理，比方说HDFS当中的数据。Spark通过RDD弹性分布式数据集的结构，创建DAG或有向无环图，对RDD执行转换，中间步骤，操作或最终步骤，操作结果直接保存在内存中，因此计算效率也会得到提升。

2、性能

根据理论上的说法，Spark的计算运行速度可以达到Hadoop MapReduce处理数据的一百倍，实际上虽然Spark不一定能达到一百倍，但是相对于Hadoop来说，确实计算速率要快很多。

但是这并非就说明Spark天下无敌，在SparkDAG可以在步骤之间进行优化，而Hadoop在MapReduce步骤之间没有任何周期性连接，所以Spark性能更高。但是在批处理上，Spark与其他共享服务在YARN上运行，性能可能会降低并导致RAM开销内存泄漏，Hadoop则性能更高。

3、成本

企业开发大数据平台，成本是必须要考虑的问题。Hadoop和Spark都是开源项目，但是考虑到后续的维护管理，因为Spark的高性能是基于内存计算的，所以支持Spark的集群系统，理论上来说，需要具备更高的硬件性能，所以设置Spark集群的成本，也会更高。

总体来说来说，Spark和Hadoop都是分布式的数据处理框架，两者都是为了解决大规模数据处理上的各种问题，但是两者各有所长，Spark和Hadoop哪个好这样的问题，很难有统一的答案。成都加米谷大数据，专业大数据培训机构，大数据培训课程每月开班中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Spark教程菜鸟教程：从零开始学Spark
下一篇：Spark与hadoop的优势：大数据处理框架的对比

相关推荐

大家都在看

热点排行

推荐文章