主页 > 新闻资讯 > 大数据培训Druid:Druid数据存储系统简介

大数据培训Druid:Druid数据存储系统简介

作者:张老师 浏览次数: 2020-06-02 15:52
在大数据处理当中,数据存储是尤其需要重视的一个环节,而为了解决大数据存储的问题,也涌现出了很多的大数据存储系统框架,根据实际的数据存储需求,技术人员需要选择合适的数据存储方案。今天的大数据培训Druid分享,我们主要来对Druid数据存储系统做一个简单的介绍。

大数据存储,为下一环节的大数据计算提供数据支持,所有需要根据实际的数据需求来尽心系统架构搭建。Druid系统,支持实时数据分析,在处理数据的规模和实时性方面,比传统OLAP系统,有明显的提升。

大数据培训Druid

Druid设计原则

①快速查询:数据预聚合+内存化+索引

仅存储经过预聚合的数据,如1分钟,1小时等,极大的提高了性能;使用Bitmap和各种压缩技术,并维护一些倒排索引,可以提高内存使用效率和AND,OR操作。

②水平扩展:分布式数据+并行化查询

一般按照时间范围把聚合数据进行分区处理,对于高维度数据还支持对Segment(<2000万行)进行分区;历史Segment数据可以存储在本地磁盘,HDFS或云服务中;如果节点故障可借助ZK重新构造数据;Druid内置了容易并行化的集合操作,在直方图方面和去重查询方面采用近似算法保证性能,如HyperLoglog,DataSketches等。

③实时分析:不可变的过去,仅追加的未来

提供基于时间维度的数据存储服务,且每行数据一旦进入系统就不能改变;历史数据以Segment数据文件方式组织,需要查询时再装载到内存。

Druid架构

Druid自身包含的节点

实时节点:摄入实时数据,生成Segment数据文件;

历史节点:加载生成好的数据文件,供查询;

查询节点:对外提供查询服务,并支持同时查询实时和历史节点,并合并结果;

协调节点:负责历史节点的数据负载均衡,并管理数据生命周期。

Druid依赖的外部组件

元数据库:存储元数据信息,如Segment的相关信息,一般是Mysql;

分布式协调服务:提供分布式一致性的组件,一般是Zookeeper;

数据文件存储库:提供数据文件的存储功能,一般是本地磁盘或HDFS等。

关于大数据培训Druid,Druid数据存储系统,以上就为大家做了一个简单的介绍了。大数据存储是大数据处理当中的重要环节,掌握主流的大数据存储系统框架,也是学习当中的重点。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础小班本月即将开课,课程大纲及试学资料可联系客服获取!
热点排行
推荐文章
立即申请>>