大数据开发-HBase的简介

作者：游老师浏览次数： 2021-04-28 13:42

今天开始我们的新篇章，在大数据开发的学习中hadoop系列知识占比很多，这不今天又来了HBase的简介和基础知识介绍，下面就开始今天的学习。
一、HBase简介
hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。HBase是一个高可靠性、高性能、可伸缩、分布式、基于列存储的非关系型（NoSQL）数据库。
它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)，主要用来存储结构化和半结构化的松散数据。
Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
Hbase中支持的数据类型：byte[]
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

二、为什么会出现HBase
自 1970 年以来，关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后，好多公司实现处理大数据并从中受益，并开始选择像 Hadoop 的解决方案。Hadoop 使用分布式文件系统，用于存储大数据，并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式的庞大的数据，任意的格式甚至非结构化的处理。
Hadoop 的限制：
Hadoop 只能执行批量处理，并且只以顺序方式访问数据。这意味着必须搜索整个数据集，即使是最简单的搜索工作。当处理结果在另一个庞大的数据集，也是按顺序处理一个巨大的数据集。在这一点上，一个新的解决方案，需要访问数据中的任何点（随机访问）单元。
Hadoop 随机存取数据库：
应用程序，如 HBase，Cassandra，CouchDB，Dynamo 和 MongoDB 都是一些存储大量数据和以随机方式访问数据的数据库。
总结：
（1）海量数据量存储成为瓶颈，单台机器无法负载大量数据。
（2）单台机器 IO 读写请求成为海量数据存储时候高并发大规模请求的瓶颈。
（3）随着数据规模越来越大，大量业务场景开始考虑数据存储横向水平扩展，使得存储服务可以增加/删除，而目前的关系型数据库更专注于一台机器。

三、HBase特点
HBase中的表特点
1、大：一个表可以有上十亿行，上百万列
2、面向列：面向列(族)的存储和权限控制，列(簇)独立检索。
3、稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
4、无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列。

以上就是本期的所有内容了，大数据开发学习之路还很长，希望大家能保持自己的热情，继续学习知识。
希望大家点个关注，及时收取最新文章推送，想了解更多敬请咨询加米谷大数据。
有问题的欢迎在评论区留言，如有侵权请告知。

标签：大数据开发，大数据，大数据就业

上一篇：大数据培训：Apache Ambari管理平台简介
下一篇：大学新增这么多大数据专业，怎么选？

相关推荐

大家都在看

热点排行

推荐文章