主页 > 新闻资讯 > Spark大数据存储:Spark数据存储解析

Spark大数据存储:Spark数据存储解析

作者:张老师 浏览次数: 2020-02-19 15:09
作为大数据代表性的计算框架之一,Spark在近年来得到的关注着实不少,尤其是Spark在一定程度上,补足了Hadoop框架在实时数据计算上的缺陷,两相结合,能够解决更接近现状的数据处理需求。今天我们就主要来聊聊Spark大数据存储方面的相关知识。

Spark基于内存进行计算,这是对比Hadoop所做的明显的一个改变。Hadoop基于磁盘进行计算,反复从磁盘存取数据的过程带来了数据处理的延迟,从而影响计算效率。而Spark,在语言层面把数据作为分布式的对象存储起来,面向内存进行数据计算,从而实现更高效率的数据处理。

Spark大数据存储

Spark的数据模型是RDD弹性分布式数据集,DD的存放和管理都是由Spark的存储管理模块实现和管理的。

Spark存储管理主要分为两层:

通信层:存储管理模块采用的是主从结构来实现通信层,主节点和从节点之间传输控制信息、状态信息。

存储层:存储管理模块需要把数据存储到硬盘或者内存中,必要时还需要复制到远端,这些操作由存储层来实现和提供相应接口。

存储管理模块以数据块为单位进行数据管理,数据块是存储管理模块中最小的操作单位。在存储管理模块中管理着各种不同的数据块,为Spark框架提供不同的功能支持:

RDD数据块:用来存储所缓存的RDD数据。

Shuffle数据块:用来存储持久化的Shuffle数据。

广播变量数据块:用来存储所存储的广播变量数据。

任务返回结果数据块:用来存储在存储管理模块内部的任务返回结果。

流式数据块:只用在Spark Streaming中,用来存储所接收到的流式数据块。

在Spark框架当中,所有的数据处理请求任务,本质上来说都是对于RDD的操作,将操作函数施行于RDD之上,而最终这些操作都将施行于每一个分区之上,从而完成系统发出的数据计算任务。

关于Spark大数据存储,以上就是简单的介绍了,Spark框架在近年来的发展当中,计算性能方面的表现是尤其得到认可的,而这也与Spark采取的数据存储模式有关。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>