大数据Spark和Hadoop比较，两者如何选择

作者：张老师浏览次数： 2020-02-07 18:46

如果在大数据计算领域有两个王者，那么一定是Spark和Hadoop，经过这几年的发展，大家也都知道，Spark和Hadoop各有其优势，在大规模数据处理上也都能发挥各自的性能来完成数据处理任务。那么如果将大数据Spark和Hadoop比较，两者如何选择呢？

Spark和Hadoop，在目前的大数据平台研发上，都有很多的拥护者，Hadoop因为历史更久，在不断完善当中，形成了体系庞大的生态系统，而Spark作为后来者，吸收了前者在数据计算上的某些经验教训，竞争力也大大提升。

大数据Spark和Hadoop比较，其实两者并非属于同一层级，Spark是基于内存计算的大数据并行计算框架，其中的重点就在于，基于内存计算，这也是前面提到的“经验教训”之一。

Hadoop的MapReduce计算框架，基于分布式集群环境当中的计算机磁盘运行计算，需要不断反复地从磁盘读取数据，数据处理的效率也就不免地降下来了。而Spark基于内存计算，不必反复读取和写入数据，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性。

MapReduce计算框架，在数据计算时，通常会将中间结果输出到磁盘上，进行存储和容错，但是当数据规模达到一定的程度时，提交一个任务的延迟非常高，因此在处理时效性要求较高的数据任务时，不具备优势。而吸取了经验教训的Spark，基于内存计算，将中间结果缓存在内存减少磁盘I/O来达到性能的提升。

但是Spark也并非完美，因为缺乏自身的分布式文件系统，Spark如果独立运行，只能通过其他的方式来获得数据源，参与下一阶段的计算任务。

但是Spark除了独立运行，也可以运行在当下的YARN等集群管理系统，与HDFS等存储层兼容，读取已有的任何Hadoop数据，包括Hive、HBase、HDFS等。因此大数据Spark和Hadoop比较，其实不是非此即彼的选择，协同工作才是更好的解决方案。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班即将开班，详情可联系客服了解！

标签：大数据计算 Spark大数据 Hadoop大数据

上一篇：Spark入门到精通：Spark学习路线规划
下一篇：Spark难学吗？Spark初学入门指南

相关推荐

大家都在看

热点排行

推荐文章