Hadoop和Spark哪个好？各自的优势如何？

作者：张老师浏览次数： 2020-02-20 18:28

在大数据计算领域，关于Hadoop和Spark哪个好的言论，一直以来都争论不断，Hadoop是成熟稳定的第一代框架，Spark是备受赞誉的第二代框架，都在大数据处理上有着不错的表现，不能一刀切地说哪个好，但是我们可以说这两个框架，各自在哪些方面表现更好。

其实，Hadoop作为第一代大数据处理框架，在当时的时期来说，解决当时的大数据处理需求，是完全足够的，但是随着互联网的发展，大数据处理的需求也在变化，对于数据处理的时效性开始提出更高的要求，而这个时候Hadoop在这方面确实是不足的。

Spark应运而生，在Hadoop的基础之上，继承了MapReduce编程模型，并在此基础之上专注于计算性能的提升，可以说Spark在设计之初，并非是冲着打败Hadoop而去，而是要对Hadoop在实时数据计算上的不足，提供新的解决方案。

Spark的中间数据放到内存中，对于迭代运算效率更高，更适合于迭代运算比较多的ML和DM运算。Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作，还支持filter、flatMap、sample、groupByKey、reduceByKey、union、join等Transformations操作，以及Count、collect、lookup、save等Actions操作。

Spark在计算性能上的优势，Hadoop在平台系统上的稳定性，使得Spark与Hadoop走向了协同开发的路线。

基于Hadoop系统，Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Hadoop以HDFS、MapReduce、Yarn为核心，集成多个模块Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume、Sqoop等，提供大数据处理当中的各种基础需求支持，进一步增强和扩展了Hadoop的系统平台地位。

关于Hadoop和Spark哪个好，这已经不是大数据平台搭建首先需要关注的问题了，Spark和Hadoop在不同的方向各有其优势，通过集成应用开发，才能更好地实现大数据处理需求的满足。成都加米谷大数据，大数据技术分享，大数据开发培训，课程详情可联系客服了解！

标签：大数据框架 Spark大数据 Hadoop大数据

上一篇：Hadoop集群是什么？Hadoop集群搭建原理
下一篇：Hadoop数据库：Hadoop数据存储实现解析

相关推荐

大家都在看

热点排行

推荐文章