主页 > 新闻资讯 > Spark和Hadoop哪个好?Hadoop Spark对比分析

Spark和Hadoop哪个好?Hadoop Spark对比分析

作者:张老师 浏览次数: 2020-02-06 17:52
针对于大数据的处理,Spark和Hadoop可以说是现在最受关注的两个框架系统,Hadoop更早开始发行,在早期可以说是独霸市场,但是随着面临新的数据处理问题,Spark等后起之秀也开始分割市场。常常听到很多人表示疑惑,都是大数据处理框架,Spark和Hadoop哪个好?今天我们就来做一个简单的对比分析。

Spark和Hadoop哪个好

我们从体系结构、性能、成本等几个方面来做对比——

1、架构

Hadoop和Spark,其实都是基于分布式思想设计的。从架构上来说,Hadoop需要先将数据引入分布式文件系统HDFS当中,然后基于HDFS来实现计算,也就是通过MapReduce来完成数据计算。

MapReduce算法位于HDFS之上,由JobTracker组成。YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘。

而Spark,自身没有分布式文件系统,只能对已经进行分布式存储的数据进行处理,比方说HDFS当中的数据。Spark通过RDD弹性分布式数据集的结构,创建DAG或有向无环图,对RDD执行转换,中间步骤,操作或最终步骤,操作结果直接保存在内存中,因此计算效率也会得到提升。

2、性能

根据理论上的说法,Spark的计算运行速度可以达到Hadoop MapReduce处理数据的一百倍,实际上虽然Spark不一定能达到一百倍,但是相对于Hadoop来说,确实计算速率要快很多。

但是这并非就说明Spark天下无敌,在SparkDAG可以在步骤之间进行优化,而Hadoop在MapReduce步骤之间没有任何周期性连接,所以Spark性能更高。但是在批处理上,Spark与其他共享服务在YARN上运行,性能可能会降低并导致RAM开销内存泄漏,Hadoop则性能更高。

3、成本

企业开发大数据平台,成本是必须要考虑的问题。Hadoop和Spark都是开源项目,但是考虑到后续的维护管理,因为Spark的高性能是基于内存计算的,所以支持Spark的集群系统,理论上来说,需要具备更高的硬件性能,所以设置Spark集群的成本,也会更高。

总体来说来说,Spark和Hadoop都是分布式的数据处理框架,两者都是为了解决大规模数据处理上的各种问题,但是两者各有所长,Spark和Hadoop哪个好这样的问题,很难有统一的答案。成都加米谷大数据,专业大数据培训机构,大数据培训课程每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>