主页 > 新闻资讯 > 大数据培训:Spark算子分类及常用函数

大数据培训:Spark算子分类及常用函数

作者:张老师 浏览次数: 2021-04-13 17:37
Spark框架,作为大数据处理的第二代框架,尤其是在大规模离线数据处理的场景下,性能是尤其值得称赞的。Spark编程,基于RDD模型,而这其中又涉及到不同的算子和函数。今天的大数据培训分享,我们就主要来讲讲Spark算子分类及常用函数。

新手学习Spark编程,首先需要有一定的Scala基础,因为Scala是Spark的源语言,有了Scala的基础,对于Spark算子和常用函数才能更好地理解和掌握。

大数据培训:Spark算子分类及常用函数

Spark算子分类

一般来说,Spark算子大致可以分为以下两类:

1、Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。

Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。

2、Action行动算子:这类算子会触发SparkContext提交Job作业。

Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。

从小方向来说,Spark算子大致可以分为以下三类:

1、Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。

2、Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

3、Action算子,这类算子会触发SparkContext提交Job作业

Spark常用算子及Scala函数:

map():将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。

mapPartitions(function):map()的输入函数是应用于RDD中每个元素,而mapPartitions()的输入函数是应用于每个分区。

mapValues(function):该操作只会改动value

flatMap(function):并将生成的RDD的每个集合中的元素合并为一个集合

flatMapValues(function):通过上面的例子可知,该操作也是只操作value,不改变key。

reduceByKey(func,numPartitions:用于对每个key对应的多个value进行merge操作

groupByKey(numPartitions):将元素通过函数生成相应的Key,数据就转化为Key-Value格式,之后将Key相同的元素分为一组。

sortByKey(accending,numPartitions)

cogroup(otherDataSet,numPartitions)

join(otherDataSet,numPartitions):找出左右相同同的记录

LeftOutJoin(otherDataSet,numPartitions):以左边表为准,逐条去右边表找相同字段,如果有多条会依次列出

RightOutJoin(otherDataSet,numPartitions)

lookup():查询指定的key,u返回其对应的value。

filter():filter函数功能是对元素进行过滤,对每个元素应用f函数,返回值为true的元素在RDD中保留,返回值为false的元素将被过滤掉。

full outer join()包括两个表的join结果,左边在右边中没找到的结果(NULL),右边在左边没找到的结果,FULL OUTER JOIN关键字结合了LEFT JOIN和RIGHT JOIN的结果。

collect():函数可以提取出所有rdd里的数据项:RDD——>数组(collect用于将一个RDD转换成数组。)

reduce():根据映射函数f,对RDD中的元素进行二元计算,返回计算结果。

count():返回RDD内元素的个数

first():返回RDD内的第一个元素,first相当于top(1)

top:top可返回最大的k个元素。

case:匹配,更多用于PartialFunction(偏函数)中{case…}

saveAsTextFile:函数将数据输出,存储到HDFS的指定目录

cache:cache将RDD元素从磁盘缓存到内存,内部默认会调用persist(StorageLevel.MEMORY_ONLY),也就是说它无法自定义缓存级别的。

persist():与cache一样都是将一个RDD进行缓存,在之后的使用过程汇总不需要重新的计算了。它比cache灵活,可以通过自定义

StorageLevel类型参数,来定义缓存的级别。

coalesce():对RDD的分区进行在分区,(用于分区数据分布不均匀的情况,利用HashPartitioner函数将数据重新分区)

reparation:与coalesce功能一样,它只是coalesce中shuffle设置为true的简易实现。(数据不经过shuffle是无法将RDD的分区变多的)

distinct():distinct将RDD中的元素进行去重操作

subtract():subtract相当于进行集合的差操作,RDD 1去除RDD 1和RDD 2交集中的所有元素。

关于大数据培训,Spark算子分类及常用函数,以上就为大家做了大致的介绍了。Spark常用的算子,需要在理解的基础上去记忆,也要能在编程当中去灵活地运用。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础就业班本月正在招生中,课程大纲及学习视频,可联系客服获取!
热点排行
推荐文章
立即申请>>