主页 > 新闻资讯 > Spark Flink区别:大数据处理Spark和Flink的对比

Spark Flink区别:大数据处理Spark和Flink的对比

作者:张老师 浏览次数: 2020-02-10 15:15
在大数据流式计算这个领域,常常被大家拿来做比较的,及时Spark和FLink。这两者在大数据流式处理上,都具有强大的优势,两者先后出现,形成竞争态势。那么Spark Flink区别到底在哪里,在这两个计算框架上,该怎么去做取舍呢?下面我们来详细了解一下。

Spark的风靡,大概是从2014年开始的,因为之前的Hadoop框架,在数据处理上的硬伤就是流处理,对于离线数据处理有极大的优势,但是随着流处理的需求出现,Hadoop在一块还有所欠缺。而Spark就是在这样的背景下出现的,提供一个统一的引擎来完成各种常见数据处理场景。

Spark Flink区别

因此,Spark在批处理、流处理、交互式查询和机器学习等几个场景的应用上,都具有很不错的应用前景。

而Flink,则是在Spark出现之后不久,作为流处理的优势竞争对手而出现。针对于Spark早期在实时流处理等场景中面临可用性问题,Flink做了进一步优化,定义为支持各种场景的高级流处理引擎。

Spark Flink区别,在数据模型和处理模型上有明显的不同。

Spark使用弹性分布式数据集(Resilient Distributed Dataset,RDD),通常用于分布式共享内存或完全虚拟化,当下游处理完全在本地时,可以对一些中间结果进行优化和省略,节省不必要的输入和输出,提升性能。

而Flink基础数据模型由数据流组成,例如事件序列。事件在一个节点上处理后的输出可以发送到下一个节点进行即时处理,这样,执行引擎就不会有任何的延迟,所以数据处理的效率和速度也得到较大的提升。

但是在数据处理DAG执行上,Spark Flink区别就体现出来了。Flink一个节点到下一个节点之间,即时进行,随意各个节点需要同时运行;而Spark,上游阶段完成微批量处理之后,下游阶段才开始处理其输出,是前后相继的关系。成都加米谷大数据,大数据技术知识分享,专业大数据培训班常年开班,详情可联系客服了解!
热点排行
推荐文章
立即申请>>