大数据培训：Hive架构基础解析

作者：张老师浏览次数： 2020-12-08 17:01

Hive在Hadoop大数据生态体系当中的地位，不用特别强调，相信大家也是知道一二的。Hadoop核心的分布式存储与数据管理，需要HDFS、Hbase、Hive各个组件的密切配合。今天的大数据培训分享，我们就来讲讲Hive的基础架构。

Hive的基础架构当中，涉及到相关组件如下：

数据存储

Hive中的数据可以存储在任意与Hadoop兼容的文件系统，其最常见的存储文件格式主要有ORC和Parquet。除了HDFS之外，也支持一些商用的云对象存储，比如AWS S3等。另外，Hive可以读入并写入数据到其他的独立处理系统，比如Druid、HBase等。

Data catalog

Hive使用Hive Metastore(HMS)存储元数据信息，使用关系型数据库来持久化存储这些信息，其依赖于DataNucleus(提供了标准的接口（JDO，JPA）来访问各种类型的数据库资源)，用于简化操作各种关系型数据库。为了请求低延迟，HMS会直接通过DataNucleus直接查询关系型数据库。HMS的API支持多种编程语言。

执行引擎

最初版本的Hive支持MapReduce作为执行引擎，后来又支持Tez和Spark作为执行引擎，这些执行引擎都可以运行在YARN上。

查询服务

Hiveserver2(HS2)允许用户执行SQL查询，Hiveserver2允许多个客户端提交请求到Hive并返回执行结果，HS2支持本地和远程JDBC和ODBC连接，另外Hive的发布版中包括一个JDBC的客户端，称之为Beeline。

Hive客户端

Hive支持多种客户端，比如Python，Java，C++，Ruby等，可以使用JDBC、ODBC和Thrift drivers连接Hive，Hive的客户端主要归为3类：

（1）Thrift Clients

Hive的Server是基于Apache Thrift的，所以支持thrift客户端的查询请求。

（2）JDBC Client

允许使用Java通过JDBC driver连接Hive，JDBC driver使用Thrift与Hive进行通信的。

（3）ODBC Client

Hive的ODBC driver允许使用基于ODBC协议的应用来连接Hive，与JDBC driver类似，ODBC driver也是通过Thrift与Hive server进行通信的。

Hive Driver

Hive Driver接收来自客户端提交的HQL语句，创建session handles，并将查询发送到Compiler(编译器)。

Hive Compiler

Hive的Compiler解析查询语句，编译器会借助Hive的metastore存储的元数据信息，对不同的查询块和查询表达式执行语义分析和类型检查，然后生成执行计划。

Optimizer(优化器)

比如列裁剪、谓词下推等优化，提升查询效率。

关于大数据培训，Hive架构基础解析，以上就为大家做了相应的介绍了。Hive的运行，与集群环境息息相关，基于分布式文件存储进行查询，需要大家去理解和掌握。成都加米谷大数据，专业大数据培训机构，大数据开发，数据分析与挖掘，零基础班本月正在招生中，课程大纲及试学视频，可联系客服获取！

标签：大数据培训 Hadoop Hive

上一篇：大数据培训：Hive和Hbase区别对比
下一篇：大数据培训：数据迁移工具Sqoop

相关推荐

大家都在看

热点排行

推荐文章