主页 > 新闻资讯 > 大数据开发课程培训之流计算基础入门

大数据开发课程培训之流计算基础入门

作者:张老师 浏览次数: 2020-06-24 18:11
在企业的大数据系统平台当中,实时数据处理始终是普遍存在的需求,而实时流计算引擎,就是实时数据处理的主要解决方案。从事大数据系统平台开发的工程师们,掌握流计算框架是基本要求。今天的大数据开发课程培训分享,我们主要来讲讲流计算技术入门。

大数据开发课程培训

什么是流计算?

简单来说,“流”指源源不断的数据流(Unbounded Data)。流计算则是指基于源源不断的数据流之上的计算,在计算发生时数据可能未完全抵达,甚至尚未产生。

流计算的过程就好比工厂里的流水线作业——产品在传送带上经历多道工序加工而成,其中每一道工序分别处理从上游源源不断传送过来的加工件,处理完成后再往下游传送。流水线的多道加工工序,对应流计算过程中的多个算子;流水线的某一道工序上,有时需要等接收到上游一批加工件之后才开始加工,对应流计算里的窗口化;工厂里的多条流水线并行加工,对应流计算的并行计算……

无论大到整个产品线的各个服务模块,还是小到每个服务模块中的具体实现步骤,“流”能够非常自然地描述业务执行的流程,它就像“分形”一样,能做任意细粒度的划分。

如何使用流计算?

以kafka+Spark Streaming+hbase来搭建一个准实时流计算框架,利用消息缓存组件Kafka实时记录从数据采集工具或业务系统实时接口收集到的数据,通过实时计算框架Spark Streaming进行逻辑处理,最终将数据存入hbase或者写回kafka中进行后续数据交付工作。

1.Kafka-消息订阅和发布

生产系统定时向kafka“生产”数据,应用系统可以自定义数据提取规则来“消费”数据,实时数据可以按分钟级/秒级的频率获取数据。

2.Zookeeper——服务器间协调

简单地说,zookeeper=文件系统+监听通知机制。对于Kafka这样的分布式服务,通常需要多台服务器相互协调工作,且保持一致性。

3.Spark Streaming——Spark核心API

Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以通过Kafka、HDFS、Flume等多种渠道获取实时数据流,按照指定时间段切成一片片小的数据块,传给Spark Engine进行数据处理,最终得到一批批的结果。

4.Hbase——分布式数据库

Hbase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。Hbase可以在一个服务器集群上运行,并且能够根据业务进行横向扩展。

关于大数据开发课程培训,流计算基础入门,以上就为大家做了一个简单的介绍了。实时流计算,是企业当中普遍存在的数据需求,搭建实时流计算框架,往往需要结合多个框架来完成。成都加米谷大数据,专业大数据培训机构,大数据开发高级提升班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>