主页 > 新闻资讯 > 短期大数据开发培训课程之流计算技术详解

短期大数据开发培训课程之流计算技术详解

作者:张老师 浏览次数: 2020-06-10 17:34
在大数据开发的工作当中,主要是运用大数据技术来解决实际的数据问题,针对不同场景下的大数据,需要采取不同的技术手段去解决问题,也因此形成了批处理、流计算等不同的概念。今天的短期大数据开发培训课程分享,我们就来对流计算技术做一个详细的介绍。

短期大数据开发培训课程

什么是流计算?

“流”指源源不断的数据流(Unbounded Data)。而流计算则是指基于源源不断的数据流之上的计算,在计算发生时数据可能未完全抵达,甚至尚未产生。

流计算,其实是相对于批处理而对立的一个概念,批计算是指每次进行计算之前默认已获得待处理所需要的全部数据(bounded Data),然后一次性处理批量数据的过程。

在互联网高度发达的今天,对于数据处理的时效性要求越来越高,所以流计算的需求开始成为主流。流计算能够大大减少数据处理的延迟时间,那么计算结果投入下一轮的应用,也就要更加迅速。

流计算框架都是怎么搭建的?

从行业主流来说,kafka+Spark Streaming+hbase的准实时流计算框架,基本上能够满足绝大部分的企业数据处理需求。

利用消息缓存组件Kafka实时记录从数据采集工具或业务系统实时接口收集到的数据,通过实时计算框架Spark Streaming进行逻辑处理,最终将数据存入hbase或者写回kafka中进行后续数据交付工作。

1.Kafka-消息订阅和发布

Kafka是一种高吞吐量的分布式、发布/订阅消息系统,可以同时支持离线数据处理和实时数据处理。

2.Zookeeper——服务器间协调

对于Kafka这样的分布式服务,通常需要多台服务器相互协调工作,且保持一致性。将ZooKeeper这样的分布式组件应用于kafka消息系统的服务协调工作中,可以有效防止出现任意一台服务器出现问题,导致整个服务崩溃的问题,还可用于领导人选举、群组协同工作和配置服务等,保证了服务的一致性和可用性。

3.Spark Streaming——Spark核心API

Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以通过Kafka、HDFS、Flume等多种渠道获取实时数据流,按照指定时间段切成一片片小的数据块,传给Spark Engine进行数据处理,最终得到一批批的结果。

4.Hbase——分布式数据库

Hbase是一个分布式的、面向列的开源数据库存储系统,一般运行在HDFS上,具有高可靠性、高并发、海量存储、面向列、极易扩展等特点。

关于短期大数据开发培训课程,流计算技术框架,以上就为大家做了一个简单的介绍了。大数据开发工作,对于流计算技术框架,是需要掌握的核心要点,学习当中需要加以重视。加米谷大数据,成都大数据培训机构,短期大数据开发培训班,高级技能提升,本月正在招生中,课程大纲及试学视频,可联系客服领取!
热点排行
推荐文章
立即申请>>