主页 > 新闻资讯 > Spark大数据技术与应用:Spark框架的应用优势

Spark大数据技术与应用:Spark框架的应用优势

作者:张老师 浏览次数: 2020-02-19 16:56
在大数据领域,基于大数据技术与应用,先后产生了不少用以支持大规模数据计算的框架,这其中Hadoop可以说是第一代框架代表,而Spark则是第二代框架的代表,凭借性能优势获得越来越多的认可。今天我们就来聊聊Spark大数据技术与应用,看看Spark框架的应用优势体现在哪些地方。

首先,还是不得不说到Hadoop,Hadoop的默认计算引擎MapReduce,针对大规模离线数据的计算任务,可以说是稳定高效,但是因此执行的是离线计算,因此存在极大的延迟性。在新一阶段的大数据发展当中,对于低延迟的实时计算的需求不断上升,Hadoop在这方面显然不能满足。

Spark大数据技术与应用

基于这样的背景,Spark框架出现了。Spark继承了MapReduce的计算模型,拓展了支持的计算操作,并且将计算运行改为面向内存进行,一定程度上来说,正好解决了MapReduce存在的不足。

Spark框架在大数据应用上体现出明显的优势:

①高效性

Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低延迟等待时间,提升计算效率。

②易用性

Spark提供超过80种不同的Transformation和Action算子,如map、reduce、filter、groupByKey、sortByKey、foreach等,并且采用函数式编程风格,实现相同的功能需要的代码量极大缩小。

③通用性

Spark基于大数据处理的各个场景,提供统一的解决方案,包括批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。

④兼容性

Spark能够跟很多开源平台兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,并且Spark可以读取多种数据源,如HDFS、HBase、MySQL等。

关于Spark大数据技术与应用,我们可以知道的是,同样基于分布式计算,Spark从架构设计到计算运行上都做到了性能的提升,更能够满足新一阶段的大数据处理需求,也因此备受企业的青睐。成都加米谷大数据,大数据技术分享,大数据培训班每月开班中,课程大纲可联系客服获取!
热点排行
推荐文章
立即申请>>