主页 > 新闻资讯 > 成都大数据培训之clickHouse概念详解

成都大数据培训之clickHouse概念详解

作者:覃老师 浏览次数: 2021-09-02 17:04
一、什么是clickhouse?
ClickHouse是用于在线分析处理(OLAP)的开源DBMS,是CK的简称。与Hadoop、Spark相比,ClickHouse非常轻量级。它由俄罗斯最大的搜索引擎Yandex于2016年6月发布,开发语言为C++。今小编将带您了解clickHouse在成都大数据培训中的概念。
二、ClickHouse的特点:
1.支持线性扩展的开源列存储数据库管理系统,简单、可 靠性高;
2.容错跑分快:比Vertica快5倍,比Hive 快 279倍,比MySQL快800倍,其可处理的数据级别已达到10亿级别;
3.功能多:支持数据统计分析各种场景,支持类SQL查询,异地复制部署;
成都大数据培训
三、分片原理
在分布式模式下,ClickHouse将数据划分为多个切片,并将其分发到不同的节点。在处理不同的SQL模式时,不同的分片策略各有优势。ClickHouse提供丰富分片策略,允许商家根据实际需求进行选择。
1) random随机分片:写入数据会被随机分发到分布式集群中的某个节点上。
2) constant固定分片:写入数据会被分发到固定一个节点上。
3) column value分片:按照某一列的值进行hash分片。
4) custom expression shard: 指定任何合法的表达式,根据表达式的计算值指定 hash shard。
数据分片使得ClickHouse能够充分利用整个集群的大规模并行计算能力,快速返回查询结果,而碎片的多样性为业务优化打开了想象空间。如在哈希分片的情况下,联接计算避免了数据分片,并在本地执行本地联接; 支持自定义分片,自定义分片以最适合不同的服务和 sql 模式; 并利用自定义分片的优势,通过设置合理的分片表达式,可以解决分区之间的数据倾斜问题。
成都大数据培训
另sharding机制使得ClickHouse可以横向线性拓展,构建大规模分布式集群,从而具备处理海量数据的能力。
不过ClickHouse的集群的水平拓展目前是一个瓶颈,因为历史数据的存在, 避免新增节点之后的数据倾斜是个难点。
以上就是成都大数据培训之clickHouse概念的详解,如果想了解更多详情,请点击成都加米谷大数据官网吧!成都大数据培训学校、大数据开发培训、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频可联系客服获取!
 
 
 

标签:
热点排行
推荐文章
立即申请>>