大数据培训Druid：Druid数据存储系统简介

作者：张老师浏览次数： 2020-06-02 15:52

在大数据处理当中，数据存储是尤其需要重视的一个环节，而为了解决大数据存储的问题，也涌现出了很多的大数据存储系统框架，根据实际的数据存储需求，技术人员需要选择合适的数据存储方案。今天的大数据培训Druid分享，我们主要来对Druid数据存储系统做一个简单的介绍。

大数据存储，为下一环节的大数据计算提供数据支持，所有需要根据实际的数据需求来尽心系统架构搭建。Druid系统，支持实时数据分析，在处理数据的规模和实时性方面，比传统OLAP系统，有明显的提升。

Druid设计原则

①快速查询：数据预聚合+内存化+索引

仅存储经过预聚合的数据，如1分钟，1小时等，极大的提高了性能；使用Bitmap和各种压缩技术，并维护一些倒排索引，可以提高内存使用效率和AND，OR操作。

②水平扩展：分布式数据+并行化查询

一般按照时间范围把聚合数据进行分区处理，对于高维度数据还支持对Segment(<2000万行)进行分区；历史Segment数据可以存储在本地磁盘，HDFS或云服务中；如果节点故障可借助ZK重新构造数据；Druid内置了容易并行化的集合操作，在直方图方面和去重查询方面采用近似算法保证性能，如HyperLoglog，DataSketches等。

③实时分析：不可变的过去，仅追加的未来

提供基于时间维度的数据存储服务，且每行数据一旦进入系统就不能改变；历史数据以Segment数据文件方式组织，需要查询时再装载到内存。

Druid架构

Druid自身包含的节点

实时节点：摄入实时数据，生成Segment数据文件；

历史节点：加载生成好的数据文件，供查询；

查询节点：对外提供查询服务，并支持同时查询实时和历史节点，并合并结果；

协调节点：负责历史节点的数据负载均衡，并管理数据生命周期。

Druid依赖的外部组件

元数据库：存储元数据信息，如Segment的相关信息，一般是Mysql；

分布式协调服务：提供分布式一致性的组件，一般是Zookeeper；

数据文件存储库：提供数据文件的存储功能，一般是本地磁盘或HDFS等。

关于大数据培训Druid，Druid数据存储系统，以上就为大家做了一个简单的介绍了。大数据存储是大数据处理当中的重要环节，掌握主流的大数据存储系统框架，也是学习当中的重点。成都加米谷大数据，专业大数据培训机构，大数据开发、数据分析与挖掘，零基础小班本月即将开课，课程大纲及试学资料可联系客服获取！

标签：大数据存储大数据培训大数据系统

上一篇：大数据技术与应用高级人才培训之大数据处理技术
下一篇：大数据培训还是人工智能培训好？哪个有前景

相关推荐

大家都在看

热点排行

推荐文章