Spark大数据技术与应用：Spark框架的应用优势

作者：张老师浏览次数： 2020-02-19 16:56

在大数据领域，基于大数据技术与应用，先后产生了不少用以支持大规模数据计算的框架，这其中Hadoop可以说是第一代框架代表，而Spark则是第二代框架的代表，凭借性能优势获得越来越多的认可。今天我们就来聊聊Spark大数据技术与应用，看看Spark框架的应用优势体现在哪些地方。

首先，还是不得不说到Hadoop，Hadoop的默认计算引擎MapReduce，针对大规模离线数据的计算任务，可以说是稳定高效，但是因此执行的是离线计算，因此存在极大的延迟性。在新一阶段的大数据发展当中，对于低延迟的实时计算的需求不断上升，Hadoop在这方面显然不能满足。

基于这样的背景，Spark框架出现了。Spark继承了MapReduce的计算模型，拓展了支持的计算操作，并且将计算运行改为面向内存进行，一定程度上来说，正好解决了MapReduce存在的不足。

Spark框架在大数据应用上体现出明显的优势：

①高效性

Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低延迟等待时间，提升计算效率。

②易用性

Spark提供超过80种不同的Transformation和Action算子，如map、reduce、filter、groupByKey、sortByKey、foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。

③通用性

Spark基于大数据处理的各个场景，提供统一的解决方案，包括批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。

④兼容性

Spark能够跟很多开源平台兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

关于Spark大数据技术与应用，我们可以知道的是，同样基于分布式计算，Spark从架构设计到计算运行上都做到了性能的提升，更能够满足新一阶段的大数据处理需求，也因此备受企业的青睐。成都加米谷大数据，大数据技术分享，大数据培训班每月开班中，课程大纲可联系客服获取！

标签：大数据应用大数据技术 Spark大数据

上一篇：谈谈Spark中的宽窄依赖：Spark窄依赖和宽依赖
下一篇：什么是Spark的核心数据集？Spark RDD全面解析

相关推荐

大家都在看

热点排行

推荐文章