流式计算Flink：Flink计算引擎简介

作者：张老师浏览次数： 2020-02-20 17:58

Flink框架，可以说大数据计算领域的后起之秀，从第一代的Hadoop，到第二代的Spark，Flink可以说是第三代的代表性框架之一。国内外很多大厂，也开始从Hadoop、Spark走向Flink。这是大数据的发展趋势所致，也是Flink框架的实力体现。今天我们就主要来聊聊流式计算Flink框架的相关知识。

Flink框架致力于解决的问题是实时流计算，在计算上确实表现强劲，但是以大数据生态系统的角度来说，其实还不够完善，因此常常基于Hadoop开发，与Hadoop生态结合紧密。

Flink系统框架，主要包括DataStream API、DataSet API、Table API、SQL、Graph API和FlinkML等，涉及离线数据处理、实时数据处理、SQL操作、图计算和机器学习库等。

Flink主要由Java代码实现，它同时支持实时流处理和批处理。对于Flink而言，作为一个流处理框架，批数据只是流数据的一个极限特例而已。此外，Flink还支持迭代计算、内存管理和程序优化，这是它的原生特性。

Flink进行数据处理时，有着明显的特征：

流式优先：Flink可以连续处理流式数据。

容错：Flink提供有状态的计算，可以记录数据的处理状态，当数据处理失败的时候，能够无缝地从失败中恢复，并保持Exactly-once。

可伸缩：Flink中的一个集群支持上千个节点。

性能：Flink支持高吞吐、低延迟。

Flink架构可以分为4层，包括Deploy层、Core层、API层和Library层。

Deploy层：主要涉及Flink的部署模式，包括本地、集群（Standalone/YARN）和云服务器（GCE/EC2）。

Core层：提供支持Flink计算的全部核心实现，为API层提供基础服务。

API层：主要实现面向无界Stream的流处理和面向Batch的批处理API，其中流处理对应DataStream API，批处理对应DataSet API。

Library层：也被称为Flink应用框架层，根据API层的划分，在API层之上构建的满足特定应用的实现计算框架，也分别对应于面向流处理和面向批处理两类。面向流处理支持CEP（复杂事件处理）、基于SQL-like的操作（基于Table的关系操作）；面向批处理支持FlinkML（机器学习库）、Gelly（图处理）、Table操作。

关于流式计算Flink框架，可以说已经获得了不小的市场了，在国内，以阿里为例，对于Flink框架非常青睐，在相关的业务当中，背后都是Flink框架在提供支持，并且也表现出了符合预期的处理能力。成都加米谷大数据，大数据前沿知识分享，专业大数据培训班课程，更多详情可联系客服了解！

标签： Flink大数据大数据计算 Flink框架

上一篇：Flink和Storm对比：流式计算框架解读
下一篇：Flink的缺点：Flink框架优劣势分析

相关推荐

大家都在看

热点排行

推荐文章