Spark大数据存储：Spark数据存储解析

作者：张老师浏览次数： 2020-02-19 15:09

作为大数据代表性的计算框架之一，Spark在近年来得到的关注着实不少，尤其是Spark在一定程度上，补足了Hadoop框架在实时数据计算上的缺陷，两相结合，能够解决更接近现状的数据处理需求。今天我们就主要来聊聊Spark大数据存储方面的相关知识。

Spark基于内存进行计算，这是对比Hadoop所做的明显的一个改变。Hadoop基于磁盘进行计算，反复从磁盘存取数据的过程带来了数据处理的延迟，从而影响计算效率。而Spark，在语言层面把数据作为分布式的对象存储起来，面向内存进行数据计算，从而实现更高效率的数据处理。

Spark的数据模型是RDD弹性分布式数据集，DD的存放和管理都是由Spark的存储管理模块实现和管理的。

Spark存储管理主要分为两层：

通信层：存储管理模块采用的是主从结构来实现通信层，主节点和从节点之间传输控制信息、状态信息。

存储层：存储管理模块需要把数据存储到硬盘或者内存中，必要时还需要复制到远端，这些操作由存储层来实现和提供相应接口。

存储管理模块以数据块为单位进行数据管理，数据块是存储管理模块中最小的操作单位。在存储管理模块中管理着各种不同的数据块，为Spark框架提供不同的功能支持：

RDD数据块：用来存储所缓存的RDD数据。

Shuffle数据块：用来存储持久化的Shuffle数据。

广播变量数据块：用来存储所存储的广播变量数据。

任务返回结果数据块：用来存储在存储管理模块内部的任务返回结果。

流式数据块：只用在Spark Streaming中，用来存储所接收到的流式数据块。

在Spark框架当中，所有的数据处理请求任务，本质上来说都是对于RDD的操作，将操作函数施行于RDD之上，而最终这些操作都将施行于每一个分区之上，从而完成系统发出的数据计算任务。

关于Spark大数据存储，以上就是简单的介绍了，Spark框架在近年来的发展当中，计算性能方面的表现是尤其得到认可的，而这也与Spark采取的数据存储模式有关。成都加米谷大数据，大数据技术分享，大数据培训班课程，更多详情可联系客服了解！

标签：大数据存储大数据计算 Spark大数据

上一篇：Spark大数据处理技术：Spark框架计算流程
下一篇：Spark大数据平台：Spark平台架构解析

相关推荐

大家都在看

热点排行

推荐文章