主页 > 新闻资讯 > 大数据培训:FlumeNG分布式数据采集

大数据培训:FlumeNG分布式数据采集

作者:张老师 浏览次数: 2020-11-26 17:10
在以Hadoop为核心的大数据技术生态当中,Flume组件在分布式数据采集需求的满足上,确实有着不错的表现,尤其是FlumeNG,Flume内部组件的不断丰富,在开发过程中的便利性也大大提升。今天的大数据培训分享,我们就主要来讲讲FlumeNG分布式数据采集。

大数据培训:FlumeNG分布式数据采集

在Flume组件当中,有FlumeOG和FlumeNG两种说法,那么首先我们要正确认识这两者的区别。

Flume-og和Flume-ng区别

Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。

Flume-ng最明显的改进就是取消了集中管理配置的Master和Zookeeper,变为一个纯粹的传输工具。Flume-ng另一个主要的不同点是读入数据和写出数据现在由不同的工作线程处理(称为Runner)。

在Flume-og中,读入线程同样做写出工作(除了故障重试)。如果写出慢的话(不是完全失败),它将阻塞Flume接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。

FlumeNG应用场景

Flume在数据采集上,实现的原理,是将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。在实际场景下,FlumeNG的应用很多。

比如说在电商网站,想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图,就需要将获取到的用户访问的页面以及点击的产品数据等日志数据信息收集并移交给Hadoop平台上去分析。这就是Flume的典型应用场景。

现在流行的内容推送,广告定点投放等,其实背后就离不开分布式数据采集系统的支持。当然,Flume并非唯一的代表产品,Facebook的Scribe,Apache chukwa,淘宝Time Tunnel等,也都是分布式日志采集的优秀产品。

关于大数据培训,FlumeNG分布式数据采集,以上就为大家做了详细的介绍了。Flume组件在大数据生态圈当中,涉及到数据采集环节,市场上的受青睐度还是比较高的,在学习当中建议深入理解掌握。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,本月正在招生中,课程大纲及试学视频,可联系客服获取!
热点排行
推荐文章
立即申请>>