主页 > 新闻资讯 > Hadoop上Spark的集成:Hadoop与Spark简要对比

Hadoop上Spark的集成:Hadoop与Spark简要对比

作者:张老师 浏览次数: 2020-02-14 15:07
大数据飞速发展,不算产生了海量的数据,这些数据的价值挖掘和分析,都要依靠大数据计算框架。而其中常常被拿来做对比的,就是Hadoop和Spark两者,两者各有优缺点,主流的观点也倾向于两个平台框架的集成。今天我们来聊聊Hadoop上Spark的集成,看看这两者如何实现更优的大数据解决方案。

首先,我们还是需要对Hadoop和Spark做一个简要的对比,看看各自的优势体现在哪些方面。

Hadoop上Spark

性能方面,Spark的运算速度是完全优于Hadoop框架的。

Hadoop的MapReduce计算框架,在磁盘中处理数据,需要反复从磁盘存取数据,这个过程是耗费的时间是比较多的,而Spark在内存中处理数据,能够实现准实时的数据处理,大大提升了数据处理的效率。同样的程序,Spark内存运行速度可以比MapReduce快100倍,Spark磁盘运行速度也可以比MapReduce快10倍。

但是Hadoop上Spark的集成,假如同样通过Yarn进行任务调度,Spark的性能就会下降,这会导致RAM内存不足,而Hadoop则没有这方面的问题。

系统安全性方面,Hadoop的经验和措施都是更到位的。

Spark前其仅支持通过共享密码(密码身份验证)核实身份;而Hadoop具备身份验证、授权、审计和加密等功能,并且与Knox Gateway和Sentry等的Hadoop安全项目相结合。Hadoop上Spark的集成,Spark就可以同样具备Hadoop的安全特性。

成本方面,两者都是开源框架,初始成本差不多,但是还要考虑后续的运维。

Spark框架利用大量RAM来运行内存中的东西,并且RAM的价格高于硬盘。另一方面,Hadoop绑定了硬盘,可以省下不少购买RAM的成本,但是Hadoop需要更多的系统来分配磁盘I/O。

所以在设计的大数据开发需求评估阶段,就需要根据实际情况来考虑。如果需求倾向于处理大量大型的历史数据,那么优先选择Hadoop;如果更多需要处理实时数据,那么Spark的性价比更高。

关于Hadoop上Spark的集成,我们从以上的对比内容当中就可以看出,Hadoop和Spark各自都有优势,Spark在计算性能上表现强劲,而Hadoop作为一个平台框架系统会更加完善,究竟怎么选择还是要看实际的开发需求。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>