主页 > 新闻资讯 > 流式计算Flink:Flink计算引擎简介

流式计算Flink:Flink计算引擎简介

作者:张老师 浏览次数: 2020-02-20 17:58
Flink框架,可以说大数据计算领域的后起之秀,从第一代的Hadoop,到第二代的Spark,Flink可以说是第三代的代表性框架之一。国内外很多大厂,也开始从Hadoop、Spark走向Flink。这是大数据的发展趋势所致,也是Flink框架的实力体现。今天我们就主要来聊聊流式计算Flink框架的相关知识。

Flink框架致力于解决的问题是实时流计算,在计算上确实表现强劲,但是以大数据生态系统的角度来说,其实还不够完善,因此常常基于Hadoop开发,与Hadoop生态结合紧密。

流式计算Flink

Flink系统框架,主要包括DataStream API、DataSet API、Table API、SQL、Graph API和FlinkML等,涉及离线数据处理、实时数据处理、SQL操作、图计算和机器学习库等。

Flink主要由Java代码实现,它同时支持实时流处理和批处理。对于Flink而言,作为一个流处理框架,批数据只是流数据的一个极限特例而已。此外,Flink还支持迭代计算、内存管理和程序优化,这是它的原生特性。

Flink进行数据处理时,有着明显的特征:

流式优先:Flink可以连续处理流式数据。

容错:Flink提供有状态的计算,可以记录数据的处理状态,当数据处理失败的时候,能够无缝地从失败中恢复,并保持Exactly-once。

可伸缩:Flink中的一个集群支持上千个节点。

性能:Flink支持高吞吐、低延迟。

Flink架构可以分为4层,包括Deploy层、Core层、API层和Library层。

Deploy层:主要涉及Flink的部署模式,包括本地、集群(Standalone/YARN)和云服务器(GCE/EC2)。

Core层:提供支持Flink计算的全部核心实现,为API层提供基础服务。

API层:主要实现面向无界Stream的流处理和面向Batch的批处理API,其中流处理对应DataStream API,批处理对应DataSet API。

Library层:也被称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);面向批处理支持FlinkML(机器学习库)、Gelly(图处理)、Table操作。

关于流式计算Flink框架,可以说已经获得了不小的市场了,在国内,以阿里为例,对于Flink框架非常青睐,在相关的业务当中,背后都是Flink框架在提供支持,并且也表现出了符合预期的处理能力。成都加米谷大数据,大数据前沿知识分享,专业大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>