主页 > 新闻资讯 > 大数据课程培训班之Hbase入门

大数据课程培训班之Hbase入门

作者:张老师 浏览次数: 2020-06-28 11:49
在大数据技术架构当中,Hbase作为Hadoop技术生态圈当中默认的NoSQL数据库,因此也是学习Hadoop框架必学的一个重要组件,在大数据课程培训班当中,Hbase这个部分,也可以说是重点内容。今天我们的大数据课程培训班分享,我们就来讲讲Hbase入门知识。

在Hadoop框架当中,Hbase是基于HDFS API构建的,本质上就是给HDFS加上一个LSM Tree索引,从而提高读写性能。作为NoSQL数据库,它有文档型数据库的弱项,即基本不支持表关联。

大数据课程培训班

Hbase适用场景

从Hbase的特点来看,主要适用于数据量大,单表至少超千万。对稀疏数据尤其适用,因为文档型数据库的null就相当于整个字段没有,是不需要占用空间的。另外,主要针对于读取近期小范围数据,效率较高,大范围需要计算引擎支持。

针对于复杂数据分析,比如关联、聚合等,仅支持过滤,不支持全局跨行事务,仅支持单行事务等,所以,这类的场景是不适合的。

从实际场景来说,比较适用于——

①对象存储:新闻、网页、图片

②时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求

③推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是构建在HBase之上

④消息/订单等历史数据:在电信领域、银行领域,不少的订单查询底层的存储,另外不少通信、消息同步的应用构建在HBase之上

Hbase架构原理

Client:发送DML、DDL请求,即数据的增删改查和表定义等操作。

ZooKeeper(类似微服务中的注册中心)

实现Master的高可用:当active master宕机,会通过选举机制选取出新master。

管理系统元数据:比如正常工作的RegionServer列表。

辅助RS的宕处理:发现宕机,通知master处理。

分布式锁:方式多个client对同一张表进行表结构修改而产生冲突。

Master:处理client的DDL请求;RegionServer数据的负载均衡、宕机恢复等;清理过期日志。

RegionServer:处理client和Master的请求,由WAL、BlockCache以及多个Region构成。

Store:一个Store存储一个列簇,即一组列。

MemStore和HFile:写缓存,阈值为128M,达到阈值会flush成HFile文件。后台有程序对这些HFile进行合并。

HLog(WAL):提高数据可靠性。写入数据时先按顺序写入HLog,然后异步刷新落盘。这样即便MemoStore的数据丢失,也能通过HLog恢复。而HBase数据的主从复制也是通过HLog回放实现的。

关于大数据课程培训班,Hbase入门,以上就为大家做了一个简单的介绍了。学习大数据课程,围绕Hadoop的技术框架,是学习当中需要掌握的重点,Hbase正是其中的重点部分。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,小班面授课程,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>