Spark框架,作为大数据处理的第二代框架,尤其是在大规模离线数据处理的场景下,性能是尤其值得称赞的。Spark编程,基于RDD模型,而这其中又涉及到不同的算子和函数。今天的大数据培训分享,我们就主要来讲讲Spark算子分类及常用函数。
新手学习Spark编程,首先需要有一定的Scala基础,因为Scala是Spark的源语言,有了Scala的基础,对于Spark算子和常用函数才能更好地理解和掌握。
Spark算子分类
一般来说,Spark算子大致可以分为以下两类:
1、Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。
Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。
2、Action行动算子:这类算子会触发SparkContext提交Job作业。
Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。
从小方向来说,Spark算子大致可以分为以下三类:
1、Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
2、Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。
3、Action算子,这类算子会触发SparkContext提交Job作业
Spark常用算子及Scala函数:
map():将原来RDD的每个数据项通过map中的用户自定义函数f映射转变为一个新的元素。
mapPartitions(function):map()的输入函数是应用于RDD中每个元素,而mapPartitions()的输入函数是应用于每个分区。
mapValues(function):该操作只会改动value
flatMap(function):并将生成的RDD的每个集合中的元素合并为一个集合
flatMapValues(function):通过上面的例子可知,该操作也是只操作value,不改变key。
reduceByKey(func,numPartitions:用于对每个key对应的多个value进行merge操作
groupByKey(numPartitions):将元素通过函数生成相应的Key,数据就转化为Key-Value格式,之后将Key相同的元素分为一组。
sortByKey(accending,numPartitions)
cogroup(otherDataSet,numPartitions)
join(otherDataSet,numPartitions):找出左右相同同的记录
LeftOutJoin(otherDataSet,numPartitions):以左边表为准,逐条去右边表找相同字段,如果有多条会依次列出
RightOutJoin(otherDataSet,numPartitions)
lookup():查询指定的key,u返回其对应的value。
filter():filter函数功能是对元素进行过滤,对每个元素应用f函数,返回值为true的元素在RDD中保留,返回值为false的元素将被过滤掉。
full outer join()包括两个表的join结果,左边在右边中没找到的结果(NULL),右边在左边没找到的结果,FULL OUTER JOIN关键字结合了LEFT JOIN和RIGHT JOIN的结果。
collect():函数可以提取出所有rdd里的数据项:RDD——>数组(collect用于将一个RDD转换成数组。)
reduce():根据映射函数f,对RDD中的元素进行二元计算,返回计算结果。
count():返回RDD内元素的个数
first():返回RDD内的第一个元素,first相当于top(1)
top:top可返回最大的k个元素。
case:匹配,更多用于PartialFunction(偏函数)中{case…}
saveAsTextFile:函数将数据输出,存储到HDFS的指定目录
cache:cache将RDD元素从磁盘缓存到内存,内部默认会调用persist(StorageLevel.MEMORY_ONLY),也就是说它无法自定义缓存级别的。
persist():与cache一样都是将一个RDD进行缓存,在之后的使用过程汇总不需要重新的计算了。它比cache灵活,可以通过自定义
StorageLevel类型参数,来定义缓存的级别。
coalesce():对RDD的分区进行在分区,(用于分区数据分布不均匀的情况,利用HashPartitioner函数将数据重新分区)
reparation:与coalesce功能一样,它只是coalesce中shuffle设置为true的简易实现。(数据不经过shuffle是无法将RDD的分区变多的)
distinct():distinct将RDD中的元素进行去重操作
subtract():subtract相当于进行集合的差操作,RDD 1去除RDD 1和RDD 2交集中的所有元素。
关于大数据培训,Spark算子分类及常用函数,以上就为大家做了大致的介绍了。Spark常用的算子,需要在理解的基础上去记忆,也要能在编程当中去灵活地运用。成都加米谷大数据,专业
大数据培训机构,大数据开发、数据分析与挖掘,零基础就业班本月正在招生中,课程大纲及学习视频,可联系客服获取!