在热热闹闹的大数据学习大潮当中,零基础入门学习大数据的不在少数,目前大数据行业人才紧缺,只要掌握过硬的技术实力,是能够得到很不错的发展的。今天的大数据零基础入门,我们为大家带来Hadoop Hive基础入门简介。
首先,Hive是什么?
Hive作为Hadoop框架下的重要组件之一,为大数据处理提供数据仓库解决方案。通过Hive,我们可以实现数据提取、转换、加载等一系列操作,也就是ETL,基于Hive,对Hadoop当中的大规模数据,可以进行存储、查询和分析。
Hive定义了一种类SQL的语言,HQL,通过HQL,可以可以将结构化的数据文件映射为一张数据库表,Hive在执行的过程中会将HQL转换为MapReduce去执行,免去了一般用户在使用Hadoop时的技术门槛,不需要编写MapReduce程序,就能实现数据处理。
所以本质上来说,Hive是基于Hadoop的一种分布式计算框架,底层仍然是MapReduce。
Hive数据存储
Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
Hive中包含四种数据模型:Table(内部表),External Table(外部表),Partition(分区),Bucket(分桶)。
Hive适用场景
Hive的最佳使用场景:大规模数据的离线批处理作业,例如网络日志分析等。
由于Hadoop本身是一个批处理,高延迟的计算框架,Hive使用Hadoop作为执行引擎,自然也就有了批处理,高延迟的特点,在数据量很小的时候,Hive执行也需要消耗较长时间来完成,所以Hive并不能在大规模数据上实现低延迟快速的查询。
因此,Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算,即席查询,统计分析等大规模数据的离线批处理作业。
今天的大数据零基础入门,Hadoop Hive简介,以上就是详细的内容了,零基础学大数据,Hadoop是必学的技术框架,而Hadoop当中的诸多功能组件,也需要一一去学习掌握。成都加米谷大数据,专业
大数据培训机构,Hadoop大数据开发班,本月正在招生中,私聊客服可领学习资料哦!