高级大数据培训课程：Flink框架入门简介

作者：张老师浏览次数： 2020-06-24 17:25

主流的大数据技术框架，一直都在随着大数据的发展而变化，从第一代的Hadoop开始，到后来的Spark、Storm，大数据技术圈始终是活跃的，也是不断更新迭代的。而公认的具备下一代主流框架潜力的Flink，也值得深入学习掌握。今天的高级大数据培训课程分享，我们主要来讲讲Flink框架入门。

相对于很多其他框架来说，Flink的兴起要晚很多，但是批流一体的数据处理思想，确实在应对新一代的大数据处理需求上，有着明显的优势。

Flink集批处理和流处理功能于一体，对Flink而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个特例。在Flink当中，批处理被看做是有边界的流数据进行处理，这样使得Flink既能处理有界的批量数据集，也能处理无界的实时数据集。

Flink分布式运行架构流程：

1、Program Code：用户编写的Flink应用程序代码

2、Job Client：Job Client不是Flink程序执行的内部部分，但它是任务执行的起点。Job Client负责接受用户的程序代码，然后创建数据流，将数据流提交给Job Manager以便进一步执行。执行完成后，Job Client将结果返回给用户。

3、Job Manager：主进程（也称为作业管理器）协调和管理程序的执行。它的主要职责包括安排任务，管理checkpoint，故障恢复等。

4、Task Manager：从Job Manager处接收需要部署的Task。

Flink程序与数据流结构：

①Source：数据输入，Flink在流处理和批处理上的source大概有4类：基于本地集合的source、基于文件的source、基于网络套接字的source、自定义的source。

②Transformation：数据转换的各种操作，有Map/FlatMap/Filter/KeyBy/Reduce/Fold/Aggregations/Window/WindowAll/Union/Window join/Split/Select/Project等。

③Sink：数据输出，Flink将转换计算后的数据发送的地点，你可能需要存储下来，Flink常见的Sink大概有如下几类：写入文件、打印出来、写入socket、自定义的sink。自定义的sink常见的有Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem等。

关于高级大数据培训课程，Flink框架入门，以上就为大家做了一个简单的介绍了。在国内，以阿里为代表的头部企业，对于Flink框架尤其重视，Flink的未来应用场景，还将进一步拓宽。加米谷大数据，成都大数据培训机构，高级大数据课程班，小班面授，本月正在招生中，课程大纲技术及试学视频可联系客服获取！

标签：大数据培训 Flink大数据大数据框架

上一篇：大数据处理技术培训之实时流计算场景
下一篇：大数据工程师培训内容：实时计算VS离线计算

相关推荐

大家都在看

热点排行

推荐文章