主页 > 新闻资讯 > Hadoop和spark概念:Hadoop Spark异同对比

Hadoop和spark概念:Hadoop Spark异同对比

作者:张老师 浏览次数: 2020-02-06 17:40
在大数据领域,Hadoop和Spark两个名词,很多人都并不陌生,作为大数据领域重要的两个计算框架,大数据技术人员是必须要掌握的。落到实际上,Hadoop和Spark概念以及理论框架上的异同,很多人其实并不十分清楚,下面我们就来聊聊相关的问题。

虽然,Hadoop和Spark两者都是基于分布式计算框架进行研发的,但是两者在解决问题的层面上是不同的。

Hadoop和spark概念

Hadoop的实质,其实是作为一个分布式数据基础设施,将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,并通过MapReduce实现分布式计算。

而Spark,则是专门针对分布式存储的大数据进行处理的工具,本身并不具备分布式数据存储的能力,必须要借助其他的数据存储系统才能实现下一步的计算。

由于两者的侧重点不同,Spark更适合于迭代运算比较多的ML和DM运算。而Hadoop在OLAP等大规模数据的应用场景更具优势。Hadoop涵盖了从数据收集、到分布式存储,再到分布式计算的各个领域,作为企业数据平台,不需要借助其他,平台系统本身就是完全够用的。

而谈到Hadoop和Spark概念时,一直以来广为流传的一个说法是,Hadoop会逐渐被Spark代替,但是事实如何呢?

经过这几年的发展,Hadoop并没有被Spark代替,两者之间开始兼容协作,反而实现更高效率的数据处理。

事实上,很多人所说的Spark代替Hadoop,其实是不够准确的,Hadoop是一个完整的大数据平台系统,而Spark是分布式计算引擎,Spark真正该对标的,其实是MapReduce。

MapReduce是Hadoop系统的分布式计算引擎,广受吐槽的Map+Reduce模型,数据处理编程上很受限,并且需要一次次地从磁盘读取数据,运行速度被拖慢。Spark就基于此进行了优化,基于内存进行计算,大大提高了运行速度和处理效率。

总而言之,Hadoop和Spark概念上都是靠分布式理论,但是实际在数据处理上,各自有各自的运行逻辑和优势劣势,只有兼容协作,才能更高效完成数据处理任务。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班即将开班,详情可联系客服了解!
热点排行
推荐文章
立即申请>>