主页 > 新闻资讯 > 培训大数据课程视频之Storm实时流计算框架

培训大数据课程视频之Storm实时流计算框架

作者:张老师 浏览次数: 2020-06-24 18:07
大数据处理,需要根据数据特征、数据规模、数据形式来选择适当的处理方式,这其中又涉及到大数据计算框架的选择。从最初的Hadoop发展到今天的Spark、Storm、Flink,每一代框架,都在致力于解决具体场景下的问题。今天的培训大数据课程视频分享,我们主要讲解分布式实时流式计算框架。

在现实生活中,许多应用场景要求系统能够实时做出响应,比如:商品实时推介、广告投放、消费额度提醒、实时的风险控制、实时统计、网络故障预防、无线带宽分配、热门话题推送、汽车超速报警等。

培训大数据课程视频

Hadoop实现大规模数据计算的方法是,首先将数据切割为大数据块后存入HDFS集群,然后根据数据统计需求,采用MapReduce计算框架对集群中的数据并行地完成提取(Map)和聚合(Reduce)操作,这种计算模型是无法满足实时计算的,因此需要换一个思路。

为了弥补Hadoop在大规模数据实时计算方面的不足,满足应用响应的实时性需求,业界提出了许多分布式实时流式计算框架,这其中以Twitter开源的Storm、伯克利大学的AMPLab实验室开源的Spark Streaming、Flink最为典型。

为了清晰地看到分布式实时流式计算技术如何解决大规模数据的实时计算的思路和方法,下面我们对Storm的实现原理为例进行简单分析。

Storm开源框架包括的概念有:Nimbus、Zookeeper、Supervisor、Worker、Task、Topology、Spout、Bolt、Tuple、Stream、Stream Grouping。

它们各自的分工如下:

#Nimbus:主要负责资源分配和任务调度,与Hadoop的JobTracker相对应;

#Zookeeper:负责维护配置信息、命名服务、分布式同步、分组服务;

#Supervisor:负责接受Nimbus分配的任务,启动和停止worker进程,与Hadoop的TaskTracker相对应;

#Task:worker中执行spout/bolt的线程;

#Worker:运行具体处理组件逻辑的进程,worker中包含1个或者多个task,与Hadoop的Child相对应;

#Topology:是反应数据处理的拓扑结构,与Hadoop的Job相对应;

#Spout:意为“喷射”,就像自来水一样,采集数据源并将其发送到bolt,与Hadoop的Map相对应;

#Bolt:接受数据任何执行的组件,执行动作包括过滤、函数操作、合并、写数据库等,与Hadoop的Reduce相对应;

#Tuple:即元组,一次消息传递的基本单元;

#Stream:多个tuple就组成了源源不断的stream;

#Stream Grouping:流分组策略告诉topology如何在两个组件之间发生tuple。

分组策略包括:shuffle、field、all、direct等,shuffle是随机发送方式,direct为指定目的地分组发送方式,field为按字段分组发送方式,all为广播发送方式。

Storm的集群管理方式

Storm采用三级管理方式:

第一级是Nimbus,根据集群资源的占用情况进行资源分配和调度。

第二级为Zookeeper,Zookeeper负责维护集群配置信息、分布式同步以及分组等工作。

第三级为Supervisor,Supervisor负责接受Nimbus发来的任务,启动或者停止worker任务。

关于培训大数据课程视频,Storm实时流计算框架,以上就为大家做了一个简单的介绍了。在大数据培训课程内容当中,Storm是重要的一部分,学习掌握起来很有必要。成都加米谷大数据,专业大数据培训机构,大数据开发高级技术班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>