主页 > 新闻资讯 > Flink计算框架:Flink数据计算性能解析

Flink计算框架:Flink数据计算性能解析

作者:张老师 浏览次数: 2020-02-18 18:36
随着大数据的进一步发展,大数据处理的需求也在不断转变,从早期的Hadoop到后来的Spark,再到现在更年轻的Flink框架,其实都是在当时阶段下,针对主流的数据处理需求所给出的解决方案。今天我们以Flink计算框架为例,主要来聊聊Flink的框架的计算性能。

Flink计算框架可以是大数据计算框架的第三代,前两代分别是Hadoop和Spark。Hadoop作为第一代框架,擅长的是离线数据批处理任务;Spark作为第二代框架,擅长的是微批流处理;而Flink作为第三代框架,实现了真正意义上的流处理。

Flink计算框架

Flink框架,按照官方的定义,就是执行状态中的数据计算流。听起来很抽象,简单点理解,就是基于分布式架构,对有限的数据流和无限数据流都进行有状态的计算。

那么什么是有限数据流和无限数据流?

有限数据流:有限的不会改变的数据集合——批处理、离线计算(直梯)

无限数据流:数据流源源不断——流式计算(滚梯)

FLink框架作为第三代,在研发之初就做了多方面的考量。支持批处理、流处理;支持Java Scala;高吞吐、低延迟;支持乱序消息处理;支持图处理、机器学习、CEP复杂事件处理,并且支持集成Yarn HDFS Hbase和其他Hadoop生态组件(部分兼容)。

Flink计算框架是怎样进行计算的呢?

①当Flink集群启动后,会首先启动一个JobManager和一个或者多个TaskManager。

②由Client提交任务给JobManager,JobManager会调度任务到各个taskManager去执行,

③TaskManager会将心跳和统计信息汇报给JobManager。

④TaskManager之间以流的形式进行数据的传输。

⑤JobManager主要负责调度Job并协调Task,从client接收jar,生成优化后的执行计划,执行Task。

⑥每个slot能启动一个Task。task为线程。

关于Flink计算框架,以上就是简单的分享了。总体来说,Flink作为第三代计算框架,核心是流处理,但是同时也支持批处理,符合现阶段的大数据处理主流需求,也因此才获得这样快速的发展。成都加米谷大数据,专业大数据培训机构,大数据开发春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>