主页 > 新闻资讯 > Spark会替代Hadoop吗?Spark与Hadoop对比

Spark会替代Hadoop吗?Spark与Hadoop对比

作者:张老师 浏览次数: 2020-02-20 18:02
Hadoop和Spark之争,一直以来都是存在的,这两者各自代表着一个阶段内的大数据处理思路,Hadoop是先驱的第一批框架,主要优势在离线计算,Spark是活跃的第二批框架,实现了准实时计算,大大提升了数据处理效率。因此,不少人就开始问了,Spark会替代Hadoop吗?

Spark会替代Hadoop吗

Spark在2009年开始开发,到2013年加入Apache,获得迅猛发展。作为大数据计算平台的后起之秀,Spark运行速度快、易用性好、通用性佳,因此被广泛关注。

运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;

易用性好:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过Spark Shell进行交互式编程;

通用性佳:Spark提供完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以无缝整合在同一个应用中,足以应对复杂的计算;

那么具备以上这些优势,是否就说明Spark会替代Hadoop了呢?

我们还需要关注到一点,Spark开发团队对于Spark的运行模式的设计,既可以独立运行,可以基于Hadoop运行,基于Amazon EC2云环境运行,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

Spark在设计之初,重视计算性能的提升,但是在基础性支持组件上,Spark并不完善,这也是为什么现在的很多大数据平台开发仍然选择基于Hadoop搭建,再引入Spark集成开发。并且发展到2020,也没有人敢说Spark已经完全替代了Hadoop。

实际上,Spark已经很好地融入了Hadoop生态圈,并成为其中的重要一员,它可以借助于YARN实现资源调度管理,借助于HDFS实现分布式存储,共同完成数据处理需求。

Spark会替代Hadoop吗?相信看完以上的分享,大家也都有答案了吧,Spark和Hadoop之间,各自存在不可替代的优势,因此更优化的方案是融合,而非竞争到底。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>