主页 > 新闻资讯 > 循序渐进学Spark:Spark大数据学习入门

循序渐进学Spark:Spark大数据学习入门

作者:张老师 浏览次数: 2020-02-13 15:28
作为目前最为活跃的大数据计算框架之一,Spark在大数据学习阶段是重点当中的重点,Spark生态圈发展至今,已经相对比较完善,面对各种大数据业务场景,都能知道相对应的解决方案。循序渐进学Spark,掌握Spark框架体系,是大数据开发人员的入门必经之路。

根据Spark的官方定义来说,这是一个快速通用的分布式计算平台,基于分布式架构,能够快速实现大规模数据处理任务。学习Spark,首先对于Spark的平台架构、理论概念等知识,都要有所掌握。

循序渐进学Spark

Spark框架在处理数据上,主要是基于Hadoop的MapReduce做了优化,同样是分布式计算,但是在计算过程中的环节进行了优化。

早期的Hadoop在进行数据处理时,MapReduce程序主要基于磁盘进行运算,高度依赖于HDFS在磁盘当中反复进行存取,数据处理的效率也被延迟。而Spark在此基础之上,将计算过程转移到内存当中进行,并且将每次计算的中间结果在内存当中进行缓存,知道计算结束输出结果。这样一来,不用反复从HDFS存取数据,计算效率得到极大的提升。

并且,随着Spark生态圈的不断完善,Spark系统组件能够适用于更多的数据处理场景,包括流数据处理、ML、SQL操作、批处理等。

Spark核心组件有:Spark core、Spark SQL、Spark Streaming、Spark GraphX、Spark MLlib。

Spark Core,承载系统其他组件和正常运行的基本功能,其中包括Spark最核心的RDD弹性分布式数据集,提供一个统一的数据形式和基于数据形式的操作,访问各种文件系统的逻辑,将HDFS、SQL或者离线数据转换为RDD。

Spark SQL,提供了一种类SQL的操作,可以将各种格式和来源的数据进行处理,并且DataFrame和DataSet的一些操作可以直接转换为RDD上的操作。

Spark Streaming,主要负责实时数据流的处理,使用离散流的流数据,周期性的创建最后一个时间窗口进入的数据的RDD,即接收流数据,进而转换为可供Spark处理和操作的RDD。

Spark MLib,机器学习框架,支持机器学习框架。

Spark GraphX,图像算法实现,提供多种图像算法库。

总体来说,大数据的学习都遵循从难到易的一个过程,循序渐进学Spark,初步入门的学习往往从打好基础开始,后面逐步进入到理论应用到实战当中,提升自己的技术实力。成都加米谷大数据,专业大数据培训,大数据培训班每月开班中,课程详情可联系客服获取!
热点排行
推荐文章
立即申请>>