在大数据处理当中,数据存储是尤其需要重视的一个环节,而为了解决大数据存储的问题,也涌现出了很多的大数据存储系统框架,根据实际的数据存储需求,技术人员需要选择合适的数据存储方案。今天的大数据培训Druid分享,我们主要来对Druid数据存储系统做一个简单的介绍。
大数据存储,为下一环节的大数据计算提供数据支持,所有需要根据实际的数据需求来尽心系统架构搭建。Druid系统,支持实时数据分析,在处理数据的规模和实时性方面,比传统OLAP系统,有明显的提升。
Druid设计原则
①快速查询:数据预聚合+内存化+索引
仅存储经过预聚合的数据,如1分钟,1小时等,极大的提高了性能;使用Bitmap和各种压缩技术,并维护一些倒排索引,可以提高内存使用效率和AND,OR操作。
②水平扩展:分布式数据+并行化查询
一般按照时间范围把聚合数据进行分区处理,对于高维度数据还支持对Segment(<2000万行)进行分区;历史Segment数据可以存储在本地磁盘,HDFS或云服务中;如果节点故障可借助ZK重新构造数据;Druid内置了容易并行化的集合操作,在直方图方面和去重查询方面采用近似算法保证性能,如HyperLoglog,DataSketches等。
③实时分析:不可变的过去,仅追加的未来
提供基于时间维度的数据存储服务,且每行数据一旦进入系统就不能改变;历史数据以Segment数据文件方式组织,需要查询时再装载到内存。
Druid架构
Druid自身包含的节点
实时节点:摄入实时数据,生成Segment数据文件;
历史节点:加载生成好的数据文件,供查询;
查询节点:对外提供查询服务,并支持同时查询实时和历史节点,并合并结果;
协调节点:负责历史节点的数据负载均衡,并管理数据生命周期。
Druid依赖的外部组件
元数据库:存储元数据信息,如Segment的相关信息,一般是Mysql;
分布式协调服务:提供分布式一致性的组件,一般是Zookeeper;
数据文件存储库:提供数据文件的存储功能,一般是本地磁盘或HDFS等。
关于大数据培训Druid,Druid数据存储系统,以上就为大家做了一个简单的介绍了。大数据存储是大数据处理当中的重要环节,掌握主流的大数据存储系统框架,也是学习当中的重点。成都加米谷大数据,专业
大数据培训机构,大数据开发、数据分析与挖掘,零基础小班本月即将开课,课程大纲及试学资料可联系客服获取!