作为目前最为活跃的大数据计算框架之一,Spark在大数据学习阶段是重点当中的重点,Spark生态圈发展至今,已经相对比较完善,面对各种大数据业务场景,都能知道相对应的解决方案。循序渐进学Spark,掌握Spark框架体系,是大数据开发人员的入门必经之路。
根据Spark的官方定义来说,这是一个快速通用的分布式计算平台,基于分布式架构,能够快速实现大规模数据处理任务。学习Spark,首先对于Spark的平台架构、理论概念等知识,都要有所掌握。
Spark框架在处理数据上,主要是基于Hadoop的MapReduce做了优化,同样是分布式计算,但是在计算过程中的环节进行了优化。
早期的Hadoop在进行数据处理时,MapReduce程序主要基于磁盘进行运算,高度依赖于HDFS在磁盘当中反复进行存取,数据处理的效率也被延迟。而Spark在此基础之上,将计算过程转移到内存当中进行,并且将每次计算的中间结果在内存当中进行缓存,知道计算结束输出结果。这样一来,不用反复从HDFS存取数据,计算效率得到极大的提升。
并且,随着Spark生态圈的不断完善,Spark系统组件能够适用于更多的数据处理场景,包括流数据处理、ML、SQL操作、批处理等。
Spark核心组件有:Spark core、Spark SQL、Spark Streaming、Spark GraphX、Spark MLlib。
Spark Core,承载系统其他组件和正常运行的基本功能,其中包括Spark最核心的RDD弹性分布式数据集,提供一个统一的数据形式和基于数据形式的操作,访问各种文件系统的逻辑,将HDFS、SQL或者离线数据转换为RDD。
Spark SQL,提供了一种类SQL的操作,可以将各种格式和来源的数据进行处理,并且DataFrame和DataSet的一些操作可以直接转换为RDD上的操作。
Spark Streaming,主要负责实时数据流的处理,使用离散流的流数据,周期性的创建最后一个时间窗口进入的数据的RDD,即接收流数据,进而转换为可供Spark处理和操作的RDD。
Spark MLib,机器学习框架,支持机器学习框架。
Spark GraphX,图像算法实现,提供多种图像算法库。
总体来说,大数据的学习都遵循从难到易的一个过程,循序渐进学Spark,初步入门的学习往往从打好基础开始,后面逐步进入到理论应用到实战当中,提升自己的技术实力。成都加米谷大数据,专业大数据培训,
大数据培训班每月开班中,课程详情可联系客服获取!