Hadoop和Spark：兼容才是可靠的解决方案

作者：张老师浏览次数： 2020-02-06 17:48

说起大数据计算框架，Hadoop和Spark这两者之间，一直都是存在着争议的，甚至一度还出现了Spark会替代Hadoop的声音，但是随着这两年的发展，事实告诉大家，Hadoop和Spark这两者之间，谁也没有消灭谁，都好好地存在着。

那些一定要在Hadoop和Spark之间分隔孰优孰劣的人，其实忽视了很重要的一点就是，设计人员最初的初衷，其实是需要Hadoop和Spark实现在一个系统当中的协同运行，共同提供更高效的大数据处理解决方案。

Hadoop和Spark，兼容合作才是目前大数据处理的最佳解决方案。Hadoop和Spark各有所长，并且各自的长处并不互相重叠。

举个很明显的例子，Spark的优势在于实时数据计算，而Hadoop的优势在于离线数据计算，如果完全依靠Spark的实时计算，当数据规模增长到一定的量级的时候，Spark的系统也会扛不住，所以如果将Hadoop和Spark结合起来，Hadoop处理时效性要求不高的数据，而Spark处理时效性要求高的数据，两相结合才是更优化的选择。

再比如说，Spark没有文件管理功能，必须依靠于其他的分布式文件系统才能进行工作，而Hadoop的HDFS文件系统就能提供这样的帮助。Spark拿来和Hadoop做比较，本身是没有可比性的，Spark更倾向于是数据计算引擎，而非是完善的数据处理平台。

关于Hadoop和Spark，需要记住的一点就是，这两者之间，不是非此即彼的关系，不是说一方要成为另一方的替代者，而胡思两者彼此兼容，提供更强大的数据处理解决方案。Spark真正擅长的是处理流工作负载、交互式查询和基于机器的学习等，而Hadoop作为一个完备的大数据处理平台兼容Spark，也能实现各方面的性能提升。

在现阶段的趋势来看，Hadoop和Spark都在大数据领域内占有自己的地位，并且也各自在数据处理上发挥所长，作为技术人员，更应该思考的是，如何实现两者之间更好的兼容和性能的提升。成都加米谷大数据，大数据技术知识分享，大数据课程培训，2020春季班正在招生中，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Spark是啥？Spark基础入门理论解析
下一篇：Spark教程菜鸟教程：从零开始学Spark

相关推荐

大家都在看

热点排行

推荐文章