主页 > 新闻资讯 > 大数据学习:实时OLAP数据分析系统Druid入门

大数据学习:实时OLAP数据分析系统Druid入门

作者:张老师 浏览次数: 2021-01-14 18:20
在企业级的数据分析场景当中,实时数据分析需求正在不断上升,与此同时也就对实时数据分析系统提出了要求。在开源的实时OLAP数据分析引擎当中,Druid算得上是一个经典产品。今天的大数据学习分享,我们就主要来讲讲实时OLAP数据分析系统Druid。

大数据学习:实时OLAP数据分析系统Druid入门

Druid简介

Druid是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,支持快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。

Druid在设计时充分考虑到了高可用性,各种节点挂掉都不会使得druid停止工作(但是状态会无法更新);

Druid中的各个组成部分之间耦合性低,如果不需要实时数据完全可以忽略实时节点;

Druid使用Bitmap indexing加速列存储的查询速度,并使用CONCISE算法来对bitmap indexing进行压缩,使得生成的segments比原始文本文件小很多。

Druid整体架构

Druid集群包含不同类型的节点,而每种节点都被设计来做好某组事情。这样的设计可以隔离关注并简化整个系统的复杂度。

不同节点的运转几乎都是独立的并且和其他的节点有着最小化的交互,因此集群内的通信故障对于数据可用性的影响非常小。

Druid集群的构成和数据流向如图所示:

大数据学习:实时OLAP数据分析系统Druid入门

Druid本身包含了五种节点:Realtime、Historical、Coordinator、Broker、Indexer

Historical历史节点,是进行存储和查询的“历史”数据(非实时)的工作区,它会从深存储区(Deep Storage)中加载数据段(Data/Segments),响应Broker节点的查询请求并返回结果。

历史节点通常会在本机同步深存储区上的部分数据段,所以即使深存储区不可访问了,历史节点还是能查询到已经同步的数据段。

Realtime实时节点,是进行存储和查询实时数据的工作区,它也会响应Broker节点的查询请求并返回结果。

实时节点会定期地将数据建立成数据段移到历史节点中。

Coordinator协调节点,可以认为是Druid中的master,它通过Zookeeper管理历史节点和实时节点,且通过Mysql中的metadata管理数据段。

Broker节点,负责响应外部的查询请求,通过查询Zookeeper将请求分别转发给历史节点和实时节点,最终合并并返回查询结果给外部,由Broker节点通过zookeeper决定哪些历史节点和实时节点提供服务。

Indexer索引节点,负责数据导入,加载批次和实时数据到系统中,并可以修改存储到系统中的数据。

关于大数据学习,实时OLAP数据分析系统Druid入门,以上就为大家做了简单的介绍了。在实时数据分析需求不断上升的大背景下,Druid还是值得学习和掌握的。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析挖掘,零基础班本月正在招生中,课程大纲及试学视频,可联系客服领取!
热点排行
推荐文章
立即申请>>