主页 > 新闻资讯 > 高级大数据培训课程:Flink框架入门简介

高级大数据培训课程:Flink框架入门简介

作者:张老师 浏览次数: 2020-06-24 17:25
主流的大数据技术框架,一直都在随着大数据的发展而变化,从第一代的Hadoop开始,到后来的Spark、Storm,大数据技术圈始终是活跃的,也是不断更新迭代的。而公认的具备下一代主流框架潜力的Flink,也值得深入学习掌握。今天的高级大数据培训课程分享,我们主要来讲讲Flink框架入门。

相对于很多其他框架来说,Flink的兴起要晚很多,但是批流一体的数据处理思想,确实在应对新一代的大数据处理需求上,有着明显的优势。

高级大数据培训课程

Flink集批处理和流处理功能于一体,对Flink而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个特例。在Flink当中,批处理被看做是有边界的流数据进行处理,这样使得Flink既能处理有界的批量数据集,也能处理无界的实时数据集。

Flink分布式运行架构流程:

1、Program Code:用户编写的Flink应用程序代码

2、Job Client:Job Client不是Flink程序执行的内部部分,但它是任务执行的起点。Job Client负责接受用户的程序代码,然后创建数据流,将数据流提交给Job Manager以便进一步执行。执行完成后,Job Client将结果返回给用户。

3、Job Manager:主进程(也称为作业管理器)协调和管理程序的执行。它的主要职责包括安排任务,管理checkpoint,故障恢复等。

4、Task Manager:从Job Manager处接收需要部署的Task。

Flink程序与数据流结构:

①Source:数据输入,Flink在流处理和批处理上的source大概有4类:基于本地集合的source、基于文件的source、基于网络套接字的source、自定义的source。

②Transformation:数据转换的各种操作,有Map/FlatMap/Filter/KeyBy/Reduce/Fold/Aggregations/Window/WindowAll/Union/Window join/Split/Select/Project等。

③Sink:数据输出,Flink将转换计算后的数据发送的地点,你可能需要存储下来,Flink常见的Sink大概有如下几类:写入文件、打印出来、写入socket、自定义的sink。自定义的sink常见的有Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem等。

关于高级大数据培训课程,Flink框架入门,以上就为大家做了一个简单的介绍了。在国内,以阿里为代表的头部企业,对于Flink框架尤其重视,Flink的未来应用场景,还将进一步拓宽。加米谷大数据,成都大数据培训机构,高级大数据课程班,小班面授,本月正在招生中,课程大纲技术及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>