主页 > 新闻资讯 > Spark hadoop对比:Spark和Hadoop各自的优缺点

Spark hadoop对比:Spark和Hadoop各自的优缺点

作者:张老师 浏览次数: 2020-02-06 14:33
大数据发展至今,Hadoop的江湖地位已经是被大众广泛认可的了,而Spark,后来者同样不敢示弱,在大数据领域当中,同样获得了极高的认可,甚至一度穿出Hadoop已死,未来是Spark的等等的说法。但是事实上,这两者之间并非是不能共存的关系,接下来我们就来做一个Spark Hadoop对比,看看他们各自的优缺点。

Spark hadoop对比

先来后到,从时间上来说,确实Hadoop发行的时间更久,并且还在随着行业的发展不断在更新优化。大数据领域的发展是快速的,在大数据处理上,也在不断面临着新的需要解决的问题。而Spark,本身就是在借鉴了Hadoop的MapReduce之后发展而来的。

Spark hadoop对比:

①运行速度

系统运行速度与数据处理的效率直接相关,早期的Hadoop,基于分布式计算框架MapReduce,基于磁盘进行计算,因为需要不断从磁盘读取,所以运行整体速度会减慢。而Spark,基于内存计算,中间计算结果也存储在内存中,迭代效率更高,数据处理效率也大大提高。

②容错性

面对大规模的数据处理任务,容错性是非常值得关注的指标。Spark引进弹性分布式数据集RDD的概念,在RDD计算时可以通过CheckPoint来实现容错。而Hadoop的容错机制,HDFS保证数据的容错性性,ZooKeeper以及Yarn组件等保证运行的容错性。

③编程操作

Spark支持的数据集操作类型很多,也就是对RDD的操作,各个处理节点之间的通信模型不再像Hadoop只有Shuffle一种模式,用户可以命名、物化,控制中间结果的存储、分区等。而相对来说,Hadoop就要单一得多,只有Map和Reduce两个阶段。

总体来说,Spark hadoop对比,两者之间各有优劣,至于一些流传的说法,认为Spark会取代Hadoop,这样其实是有失偏颇的,Spark在实时计算性能上确实提升了不少,但是相对于Hadoop来说,还是缺少很多大数据平台的组件,两者结合才是最佳选择。成都加米谷大数据,专业大数据课程培训,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>