主页 > 新闻资讯 > 大数据学习:Flume组件入门简介

大数据学习:Flume组件入门简介

作者:张老师 浏览次数: 2020-11-17 16:05
在大数据系统平台的运行当中,对于日志的收集和传输,往往由Flume组件来负责,基于分布式系统,执行日志收集任务。今天的大数据学习分享,我们就主要来讲讲Flume组件入门基础。

Flume组件的诞生,最初来自cloudera软件公司,在2009年被捐赠给了Apache基金会,成为Hadoop生态圈的重要组件之一,也是Apache的顶级项目之一。

大数据学习:Flume组件入门简介

Flume简介

Flume定义,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输系统。在大数据平台当中,负责收集例如日志,事件等数据资源,并且将这些数量庞大的数据从各项数据资源中集中起来存储。

支持在日志系统中定制各类数据发送方,用以采集数据,也提供对数据进行简单处理,并写到各种数据接收方的能力。简单来说:Flume是实时采集日志的数据采集引擎。将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。

Flume应用场景

在实际开发当中, Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源。

Flume优势

Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,Hbase。

当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据。

Flume的管道是基于事务,保证了数据在传送和接收时的一致性。

Flume具备可靠性,高容错性,可升级,可定制,易管理。

支持各种接入资源数据的类型以及接出数据类型。

支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。

关于大数据学习,Flume组件入门简介,以上就为大家做了简单的介绍了。在大数据技术生态当中,Flume作为日志收集系统,也常常与Kafka配合,共同完成平台当中的各项数据采集需求。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,本月正在招生中,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>