Spark hadoop对比：Spark和Hadoop各自的优缺点

作者：张老师浏览次数： 2020-02-06 14:33

大数据发展至今，Hadoop的江湖地位已经是被大众广泛认可的了，而Spark，后来者同样不敢示弱，在大数据领域当中，同样获得了极高的认可，甚至一度穿出Hadoop已死，未来是Spark的等等的说法。但是事实上，这两者之间并非是不能共存的关系，接下来我们就来做一个Spark Hadoop对比，看看他们各自的优缺点。

先来后到，从时间上来说，确实Hadoop发行的时间更久，并且还在随着行业的发展不断在更新优化。大数据领域的发展是快速的，在大数据处理上，也在不断面临着新的需要解决的问题。而Spark，本身就是在借鉴了Hadoop的MapReduce之后发展而来的。

Spark hadoop对比：

①运行速度

系统运行速度与数据处理的效率直接相关，早期的Hadoop，基于分布式计算框架MapReduce，基于磁盘进行计算，因为需要不断从磁盘读取，所以运行整体速度会减慢。而Spark，基于内存计算，中间计算结果也存储在内存中，迭代效率更高，数据处理效率也大大提高。

②容错性

面对大规模的数据处理任务，容错性是非常值得关注的指标。Spark引进弹性分布式数据集RDD的概念，在RDD计算时可以通过CheckPoint来实现容错。而Hadoop的容错机制，HDFS保证数据的容错性性，ZooKeeper以及Yarn组件等保证运行的容错性。

③编程操作

Spark支持的数据集操作类型很多，也就是对RDD的操作，各个处理节点之间的通信模型不再像Hadoop只有Shuffle一种模式，用户可以命名、物化，控制中间结果的存储、分区等。而相对来说，Hadoop就要单一得多，只有Map和Reduce两个阶段。

总体来说，Spark hadoop对比，两者之间各有优劣，至于一些流传的说法，认为Spark会取代Hadoop，这样其实是有失偏颇的，Spark在实时计算性能上确实提升了不少，但是相对于Hadoop来说，还是缺少很多大数据平台的组件，两者结合才是最佳选择。成都加米谷大数据，专业大数据课程培训，大数据开发2020春季班正在招生中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Spark课程大纲：Spark学习课程分享
下一篇：Spark框架介绍：Spark架构体系详解

相关推荐

大家都在看

热点排行

推荐文章