Spark与hadoop的优势：大数据处理框架的对比

作者：张老师浏览次数： 2020-02-07 18:39

在市面上的大数据处理框架当中，Spark与Hadoop的江湖地位，都是得到认可的，从早期的Hadoop独霸天下，到现如今Spark、Storm、Flink等，针对于大数据处理，解决方案不止一个。但是为什么到如今还是Spark与Hadoop更受到关注呢，这就要从Spark与hadoop的优势说起。

在大数据处理框架的选择上，Spark与Hadoop之间一直都存在很多争议，但事实上，这两者在大数据处理上，各有优势，能协同工作，也有相互竞争，关键在于根据实际的需求去开发。

准确来说，Spark并不能直接对标Hadoop，作为分布式数据计算引擎，Spark对标的对象，其实应该是Hadoop的MapReduce计算引擎。MapReduce将数据处理流程分成map+reduce两个阶段，基于磁盘进行运算；而Spark作为后来者，吸收了前者的经验教训，基于内存计算，具有比hadoop更快的计算速度。

Spark计算框架的性能提升，不仅限于计算速度的提升，还支持包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。与Mapreduce相比，Spark具备DAG执行引擎以及基于内存的多轮迭代计算等优势，在SQL层面上，比Hive/Pig引入了更多关系数据库的特性，以及内存管理技术。

但是这也并非是说Spark就是完美的数据计算引擎了，Spark与Hadoop相比，缺少非常重要的一部分就是分布式文件系统。要实现Spark的运行，虽然不一定要Hadoop的支持，但是需要依赖于其他的数据源提取。这个数据源可以是来自Hadoop的分布式文件系统HDFS，也可以是来自S3、Cassandra等其他存储中。

关于Spark与hadoop的优势，其实归根结底是各有优势，Spark并不能完全替代Hadoop或者MapReduce，更多的实际情况是，大数据平台将同时使用Hadoop和Spark来协同工作。成都加米谷大数据，专业大数据培训机构，大数据培训班每月开班中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Spark和Hadoop哪个好？Hadoop Spark对比分析
下一篇：Spark的基本构架：Spark架构系统简介

相关推荐

大家都在看

热点排行

推荐文章