主页 > 新闻资讯 > Spark与hadoop的优势:大数据处理框架的对比

Spark与hadoop的优势:大数据处理框架的对比

作者:张老师 浏览次数: 2020-02-07 18:39
在市面上的大数据处理框架当中,Spark与Hadoop的江湖地位,都是得到认可的,从早期的Hadoop独霸天下,到现如今Spark、Storm、Flink等,针对于大数据处理,解决方案不止一个。但是为什么到如今还是Spark与Hadoop更受到关注呢,这就要从Spark与hadoop的优势说起。

在大数据处理框架的选择上,Spark与Hadoop之间一直都存在很多争议,但事实上,这两者在大数据处理上,各有优势,能协同工作,也有相互竞争,关键在于根据实际的需求去开发。

Spark与hadoop的优势

准确来说,Spark并不能直接对标Hadoop,作为分布式数据计算引擎,Spark对标的对象,其实应该是Hadoop的MapReduce计算引擎。MapReduce将数据处理流程分成map+reduce两个阶段,基于磁盘进行运算;而Spark作为后来者,吸收了前者的经验教训,基于内存计算,具有比hadoop更快的计算速度。

Spark计算框架的性能提升,不仅限于计算速度的提升,还支持包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。与Mapreduce相比,Spark具备DAG执行引擎以及基于内存的多轮迭代计算等优势,在SQL层面上,比Hive/Pig引入了更多关系数据库的特性,以及内存管理技术。

但是这也并非是说Spark就是完美的数据计算引擎了,Spark与Hadoop相比,缺少非常重要的一部分就是分布式文件系统。要实现Spark的运行,虽然不一定要Hadoop的支持,但是需要依赖于其他的数据源提取。这个数据源可以是来自Hadoop的分布式文件系统HDFS,也可以是来自S3、Cassandra等其他存储中。

关于Spark与hadoop的优势,其实归根结底是各有优势,Spark并不能完全替代Hadoop或者MapReduce,更多的实际情况是,大数据平台将同时使用Hadoop和Spark来协同工作。成都加米谷大数据,专业大数据培训机构,大数据培训班每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>