主页 > 新闻资讯 > 大数据培训技术要求之Kafka技术架构详解

大数据培训技术要求之Kafka技术架构详解

作者:张老师 浏览次数: 2020-06-01 17:16
在大数据学习当中,重中之重就是对于主流大数据技术框架的学习,这其中包含着大数据处理各个阶段当中,提供专业支持的技术框架。而随着大数据实时处理需求的增长,Kafka的应用也越来越普遍。今天的大数据培训技术要求分享,我们就主要来聊聊Kafka技术架构的知识点。

大数据发展到今天,实时数据处理的需求正在快速上升,根据相关数据统计,约有三分之一的世界500强公司,正在使用Kafka,我们所熟悉的LinkedIn、Microsoft和Netflix等公司,面对万亿级的数据信息,都选择了Kafka。

大数据培训技术要求

为什么选择Kafka?

Kafka主要在实时信息流数据的收集和分析处理,能够以快速、可扩展、可持久和高容错的发布-订阅消息系统来完成任务。

Kafka既可以为内存微服务提供持久性服务,也可以用于向复杂事件流系统和IoT/IFTTT式自动化系统反馈事件。Kafka支持更高的吞吐量,更高的稳定性和副本(replication)特性。这使得它更加适合跟踪服务调用(可以跟踪每次调用)或跟踪IoT传感器数据。

在大数据平台架构层面,Kafka可以与Flume/Flafka、Spark Streaming、Storm、HBase、Flink以及Spark配合使用,用于实时获取、分析和处理流数据。

Kafka可以为Hadoop大数据湖(Hadoop BigData lake)提供数据流。Kafka Broker支持在Hadoop或Spark中低延时地处理和分析海量信息流。此外,Kafka子项目KafkaStreaming可用于实时分析。

Kafka的优势何在?

Kafka具有极佳的性能表现。它非常稳定,能提供稳定的持久化,具有灵活的订阅-发布消息队列,可与N个消费者群组进行良好扩展,具有强大的复制功能,为生产者提供可调整的一致性保证,并在碎片级别提供保留排序(即Kafka主题分区)。

其次,Kafka可以很好地兼容需要数据流处理的系统,并将这些系统融合、转换并加载到其他存储。“多快好省”就是Kafka的最大优势。

Kafka基于zero copy原则,深度依靠操作系统内核实现快速移动数据。Kafka能将数据记录分批处理。这些批次数据可以通过端到端的方式从生产者到文件系统(Kafka主题日志)再到消费者。批处理能实现更高效的数据压缩并减少I/O延迟。

Kafka将不可变的提交日志写入连续磁盘,从而避免了随机磁盘访问和磁盘寻道速度慢的问题。Kafka支持增加分区进行横向扩展。它将主题日志分成几百个(可能有数千个)分区分布到数千个服务器。这种方式可以让Kafka承载海量负载。

关于大数据培训技术要求,Kafka技术架构,以上就给大家做了一个初步的介绍了。Kafka在大数据实时处理当中,正在受到越来越多的重视,所以学习大数据,Kafka是需要重点掌握的。加米谷大数据,成都大数据培训机构,大数据开发高级提升班,本月正在招生中,课程大纲及试听课程可联系客服获取!
热点排行
推荐文章
立即申请>>