大数据Hadoop Hive：Hive是什么

作者：张老师浏览次数： 2020-01-03 16:09

在大数据当中，要实现大数据处理，首先需要确保海量数据存储稳定且易于操作，这就对数据库提出了更高的要求。在Hadoop生态系统当中，基于数据存储和运算的问题，Hive是其中重要的组件。今天我们就主要来聊聊大数据Hadoop Hive是什么？

Hive按照官方定义来说，是Hadoop生态体系当中的数据仓库工具，通过Hive，可以将结构化的数据文件映射成为一张数据库表，将SQL语句转化为MapReduce任务进行运行，而MapReduce，通过分布式分析计算，快速完成数据处理的过程。

Hive在实际运行过程中，提供一系列的工具，解决数据提取、转行、加载等问题，对于存储在Hadoop中的大规模数据，实现更快的存储、查询和分析操作。

Hive的架构，可以分为用户接口、Thrift服务器、元数据库、解释器（编译器、优化器、执行器）等，简单来说，Hive当中的数据基于HDFS进行存储，数据查询行为被转化为MapReduce任务，在Hadoop中执行。

用户接口：Shell/CLI,CLI，Shell终端命令行，采用交互形式使用Hive命令行与Hive进行交互。Cli启动的时候，会同时启动一个Hive副本。JDBC/ODBC客户端是Hive的JAVA实现，与传统数据库JDBC类似。

Thrift服务器：Thrift是Facebook开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发，Hiv集成了该服务，能让不同的编程语言调用Hive的接口。

元数据库：存储在Hive中的数据的描述信息。Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等。

编译器：主要将sql语句编译成一个MR的任务。

优化器：主要是对我们的sql语句进行优化。

执行器：提交mr任务，进行执行。

关于大数据Hadoop Hive，Hive是什么，hive怎么运行等等的问题，相信看完以上的内容，大家也都基本了解了。在大数据Hadoop体系下，Hive是非常重要的组件，对于海量数据的存在功不可没。成都加米谷大数据，多年行业经验，专注大数据培训，大数据课程详情可咨询客服了解！

标签： Hadoop 大数据技术大数据组件

上一篇：Hadoop与大数据：大数据Hadoop架构解析
下一篇：Hadoop的大数据体系：大数据Hadoop体系详解

相关推荐

大家都在看

热点排行

推荐文章