Hadoop上Spark的集成：Hadoop与Spark简要对比

作者：张老师浏览次数： 2020-02-14 15:07

大数据飞速发展，不算产生了海量的数据，这些数据的价值挖掘和分析，都要依靠大数据计算框架。而其中常常被拿来做对比的，就是Hadoop和Spark两者，两者各有优缺点，主流的观点也倾向于两个平台框架的集成。今天我们来聊聊Hadoop上Spark的集成，看看这两者如何实现更优的大数据解决方案。

首先，我们还是需要对Hadoop和Spark做一个简要的对比，看看各自的优势体现在哪些方面。

性能方面，Spark的运算速度是完全优于Hadoop框架的。

Hadoop的MapReduce计算框架，在磁盘中处理数据，需要反复从磁盘存取数据，这个过程是耗费的时间是比较多的，而Spark在内存中处理数据，能够实现准实时的数据处理，大大提升了数据处理的效率。同样的程序，Spark内存运行速度可以比MapReduce快100倍，Spark磁盘运行速度也可以比MapReduce快10倍。

但是Hadoop上Spark的集成，假如同样通过Yarn进行任务调度，Spark的性能就会下降，这会导致RAM内存不足，而Hadoop则没有这方面的问题。

系统安全性方面，Hadoop的经验和措施都是更到位的。

Spark前其仅支持通过共享密码（密码身份验证）核实身份；而Hadoop具备身份验证、授权、审计和加密等功能，并且与Knox Gateway和Sentry等的Hadoop安全项目相结合。Hadoop上Spark的集成，Spark就可以同样具备Hadoop的安全特性。

成本方面，两者都是开源框架，初始成本差不多，但是还要考虑后续的运维。

Spark框架利用大量RAM来运行内存中的东西，并且RAM的价格高于硬盘。另一方面，Hadoop绑定了硬盘，可以省下不少购买RAM的成本，但是Hadoop需要更多的系统来分配磁盘I/O。

所以在设计的大数据开发需求评估阶段，就需要根据实际情况来考虑。如果需求倾向于处理大量大型的历史数据，那么优先选择Hadoop；如果更多需要处理实时数据，那么Spark的性价比更高。

关于Hadoop上Spark的集成，我们从以上的对比内容当中就可以看出，Hadoop和Spark各自都有优势，Spark在计算性能上表现强劲，而Hadoop作为一个平台框架系统会更加完善，究竟怎么选择还是要看实际的开发需求。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班正在招生中，详情可联系客服了解！

标签：大数据框架 Spark大数据 Hadoop大数据

上一篇：Hive和Spark：Hadoop Hive和Spark的对比
下一篇：Spark 编程：Spark编程代码示例

相关推荐

大家都在看

热点排行

推荐文章