主页 > 新闻资讯 > 大数据学习:Hive运行原理

大数据学习:Hive运行原理

作者:张老师 浏览次数: 2020-12-08 17:05
在Hadoop生态体系当中的Hive,以提供数据仓库服务而闻名,定义基本的数据结构,使得数据查询任务能够通过更便捷的方式去实现,省去了MapReduce直接编程的复杂操作。今天的大数据学习分享,我们就来讲讲Hive运行原理。

Hive的基本工作,简单提炼一下来表述,就是将结构化的数据映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

大数据学习:Hive运行原理

在实际的运用当中,随着MapReduce编程的减少,Hive的应用场景,更多地转向了数据仓库的统计分析任务。

1、Hive的工作原理

(1)第一步:接收SQL语句;

(2)第二步:进行词法分析和语法分析;

(3)第三步:进行语义分析;

(4)第四步:生成逻辑计划,得到算子树;

(5)第五步:逻辑计划优化。对算子树进行优化,包括剪枝和谓词下推等;

(6)第六步:物理计划生成。将逻辑计划生产出包含由MapReduce任务组成的DAG的物理计划;

(7)第七步:物理计划执行。将DAG发送到Hadoop集群进行执行;

(8)第八步:将查询结果返回。

2、Hive的用户接口

(1)Hive CLI(Hive命令行):客户端可以直接在命令行模式下进行操作。通过命令行,用户可以定义表、执行查询等。如果没有指定其他服务,这个就是默认的服务。

(2)HWI(Hive Web接口):Hive提供了更直接的Web界面,可以执行查询语句和其他命令,这样可以不用登陆到集群中的某台机器上使用CLI来进行查询。

(3)Hive Thrift(即Hive-server):用于监听来自于其他进程的Thrift连接的一个守护进程。Thrift客户端目前支持C++/Java/Python等语言。

3、Hive创建表和处理数据的操作

(1)Hive创建表的过程

第一步:解析用户提交的Hive语句,进行解析,分解为表、字段、分区等Hive对象;

第二步:根据解析到的信息构建对应的表、字段、分区等对象。

(2)Hive元数据的三种存储模式

模式一:单用户模式;

模式二:多用户模式;

模式三:远程服务器模式。

Hive中的数据,分为表数据和元数据。表数据是Hive表格(Table)中具有的数据,而元数据是用来存储表的名字、表的列、表分区及其属性以及表的数据所在目录等。

关于大数据学习,Hive运行原理,以上就为大家做了基本的介绍了。Hive作为大数据技术生态当中的重要成员,也是学习阶段需要去重点掌握的,所以要从入门开始吧基础打好。成都加米谷大数据,专业大数据培训机构,大数据开发,数据分析与挖掘,零基础班本月正在招生中,课程大纲及试学视频,可联系客服获取!
热点排行
推荐文章
立即申请>>