大数据开发课程培训之流计算基础入门

作者：张老师浏览次数： 2020-06-24 18:11

在企业的大数据系统平台当中，实时数据处理始终是普遍存在的需求，而实时流计算引擎，就是实时数据处理的主要解决方案。从事大数据系统平台开发的工程师们，掌握流计算框架是基本要求。今天的大数据开发课程培训分享，我们主要来讲讲流计算技术入门。

什么是流计算？

简单来说，“流”指源源不断的数据流（Unbounded Data）。流计算则是指基于源源不断的数据流之上的计算，在计算发生时数据可能未完全抵达，甚至尚未产生。

流计算的过程就好比工厂里的流水线作业——产品在传送带上经历多道工序加工而成，其中每一道工序分别处理从上游源源不断传送过来的加工件，处理完成后再往下游传送。流水线的多道加工工序，对应流计算过程中的多个算子；流水线的某一道工序上，有时需要等接收到上游一批加工件之后才开始加工，对应流计算里的窗口化；工厂里的多条流水线并行加工，对应流计算的并行计算……

无论大到整个产品线的各个服务模块，还是小到每个服务模块中的具体实现步骤，“流”能够非常自然地描述业务执行的流程，它就像“分形”一样，能做任意细粒度的划分。

如何使用流计算？

以kafka+Spark Streaming+hbase来搭建一个准实时流计算框架，利用消息缓存组件Kafka实时记录从数据采集工具或业务系统实时接口收集到的数据，通过实时计算框架Spark Streaming进行逻辑处理，最终将数据存入hbase或者写回kafka中进行后续数据交付工作。

1.Kafka-消息订阅和发布

生产系统定时向kafka“生产”数据，应用系统可以自定义数据提取规则来“消费”数据，实时数据可以按分钟级/秒级的频率获取数据。

2.Zookeeper——服务器间协调

简单地说，zookeeper=文件系统+监听通知机制。对于Kafka这样的分布式服务，通常需要多台服务器相互协调工作，且保持一致性。

3.Spark Streaming——Spark核心API

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以通过Kafka、HDFS、Flume等多种渠道获取实时数据流，按照指定时间段切成一片片小的数据块，传给Spark Engine进行数据处理，最终得到一批批的结果。

4.Hbase——分布式数据库

Hbase不同于一般的关系型数据库，它是一个适合于非结构化数据存储的数据库。Hbase可以在一个服务器集群上运行，并且能够根据业务进行横向扩展。

关于大数据开发课程培训，流计算基础入门，以上就为大家做了一个简单的介绍了。实时流计算，是企业当中普遍存在的数据需求，搭建实时流计算框架，往往需要结合多个框架来完成。成都加米谷大数据，专业大数据培训机构，大数据开发高级提升班，本月正在招生中，课程大纲及试学视频可联系客服获取！

标签：大数据开发大数据课程流计算

上一篇：零基础学大数据培训之NoSQL数据库应用
下一篇：培训大数据分析师：做大数据分析有什么要求

相关推荐

大家都在看

热点排行

推荐文章