主页 > 新闻资讯 > 大数据Spark和Hadoop比较,两者如何选择

大数据Spark和Hadoop比较,两者如何选择

作者:张老师 浏览次数: 2020-02-07 18:46
如果在大数据计算领域有两个王者,那么一定是Spark和Hadoop,经过这几年的发展,大家也都知道,Spark和Hadoop各有其优势,在大规模数据处理上也都能发挥各自的性能来完成数据处理任务。那么如果将大数据Spark和Hadoop比较,两者如何选择呢?

Spark和Hadoop,在目前的大数据平台研发上,都有很多的拥护者,Hadoop因为历史更久,在不断完善当中,形成了体系庞大的生态系统,而Spark作为后来者,吸收了前者在数据计算上的某些经验教训,竞争力也大大提升。

大数据Spark和Hadoop

大数据Spark和Hadoop比较,其实两者并非属于同一层级,Spark是基于内存计算的大数据并行计算框架,其中的重点就在于,基于内存计算,这也是前面提到的“经验教训”之一。

Hadoop的MapReduce计算框架,基于分布式集群环境当中的计算机磁盘运行计算,需要不断反复地从磁盘读取数据,数据处理的效率也就不免地降下来了。而Spark基于内存计算,不必反复读取和写入数据,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。

MapReduce计算框架,在数据计算时,通常会将中间结果输出到磁盘上,进行存储和容错,但是当数据规模达到一定的程度时,提交一个任务的延迟非常高,因此在处理时效性要求较高的数据任务时,不具备优势。而吸取了经验教训的Spark,基于内存计算,将中间结果缓存在内存减少磁盘I/O来达到性能的提升。

但是Spark也并非完美,因为缺乏自身的分布式文件系统,Spark如果独立运行,只能通过其他的方式来获得数据源,参与下一阶段的计算任务。

但是Spark除了独立运行,也可以运行在当下的YARN等集群管理系统,与HDFS等存储层兼容,读取已有的任何Hadoop数据,包括Hive、HBase、HDFS等。因此大数据Spark和Hadoop比较,其实不是非此即彼的选择,协同工作才是更好的解决方案。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班即将开班,详情可联系客服了解!
热点排行
推荐文章
立即申请>>