主页 > 新闻资讯 > Hadoop和Spark哪个好?各自的优势如何?

Hadoop和Spark哪个好?各自的优势如何?

作者:张老师 浏览次数: 2020-02-20 18:28
在大数据计算领域,关于Hadoop和Spark哪个好的言论,一直以来都争论不断,Hadoop是成熟稳定的第一代框架,Spark是备受赞誉的第二代框架,都在大数据处理上有着不错的表现,不能一刀切地说哪个好,但是我们可以说这两个框架,各自在哪些方面表现更好。

其实,Hadoop作为第一代大数据处理框架,在当时的时期来说,解决当时的大数据处理需求,是完全足够的,但是随着互联网的发展,大数据处理的需求也在变化,对于数据处理的时效性开始提出更高的要求,而这个时候Hadoop在这方面确实是不足的。

Hadoop和Spark哪个好

Spark应运而生,在Hadoop的基础之上,继承了MapReduce编程模型,并在此基础之上专注于计算性能的提升,可以说Spark在设计之初,并非是冲着打败Hadoop而去,而是要对Hadoop在实时数据计算上的不足,提供新的解决方案。

Spark的中间数据放到内存中,对于迭代运算效率更高,更适合于迭代运算比较多的ML和DM运算。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作,还支持filter、flatMap、sample、groupByKey、reduceByKey、union、join等Transformations操作,以及Count、collect、lookup、save等Actions操作。

Spark在计算性能上的优势,Hadoop在平台系统上的稳定性,使得Spark与Hadoop走向了协同开发的路线。

基于Hadoop系统,Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Hadoop以HDFS、MapReduce、Yarn为核心,集成多个模块Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume、Sqoop等,提供大数据处理当中的各种基础需求支持,进一步增强和扩展了Hadoop的系统平台地位。

关于Hadoop和Spark哪个好,这已经不是大数据平台搭建首先需要关注的问题了,Spark和Hadoop在不同的方向各有其优势,通过集成应用开发,才能更好地实现大数据处理需求的满足。成都加米谷大数据,大数据技术分享,大数据开发培训,课程详情可联系客服了解!
热点排行
推荐文章
立即申请>>