主页 > 新闻资讯 > 大数据培训:Hive表类型和适用场景

大数据培训:Hive表类型和适用场景

作者:张老师 浏览次数: 2021-03-25 17:47
Hive在存储文件上,支持不同的格式,而所谓的格式,也可以理解为是表的类型。Hive的数据本质上来说还是存储在HDFS上,而Hive能够通过不同格式的转换,改变表结构和类型。今天的大数据培训分享,我们就来讲讲,Hive表类型以及适用的场景。

Hive支持的表类型,或者称为存储格式有:TextFile、SequenceFile、RCFile、ORC、Parquet、AVRO。

大数据培训:Hive表类型和适用场景

TextFile

TextFile是文本格式的表,它是Hive默认的表结构;在存储时使用行式存储,并且默认不进行压缩,所以TextFile默认是以明文的文本方式进行保存的,可以手动开启Hive的压缩功能进行数据压缩。但在TextFile表压缩后再进行解压,即反序列化时,耗费的时间很大,是SequenceFile的十几倍。

TextFile表因为采用了行式存储,所以适合字段较少或者经常需要获取全字段数据的场景,在数据仓库场景的分析计算场景中一般不会使用TextFile表;通常ETL流程导入的数据通常为文本格式,使用TextFile表可以很容易的将数据导入到Hive中来。

所以它常见的适用场景是作为外部数据导入存储,或者导出到外部数据库的中转表。

SequenceFile

SequenceFile同样是行式存储的表,它的存储格式为Hadoop支持的二进制文件,比如在MapReduce中数据读入和写出所使用的数据;其中Key为读取数据的行偏移量,Value为SequenceFile真正存储的数据,所以它在Hadoop中处理时,会减少文件转换所需要的时间。

SequenceFile支持压缩,可以选择None、Record、Block三种压缩方式,默认为Record,压缩率最高的是Block。

所以如果在生产中,需要数据进行行式存储、原生支持压缩,且要满足一定的性能要求,那么可以使用SequenceFile这种存储方式。

列式存储

RCFile、ORC、Parquet这三种格式,均为列式存储表——准确来说,应该是行、列存储相结合。

RCFile

列式存储表中,RCFile现在基本很少使用了,它是ORC表的前身,支持的功能和计算性能都低于ORC表。

ORC

ORC表是Hive计算的主要表形式,是在RCFile的基础上进行了优化和改进,支持NONE、Zlib、Snappy压缩,在分析计算中的性能较好,是生产中常见的表类型。

而且ORC表可以开启事务功能,以便支持数据更新、删除等操作;但事务的开启会影响表的处理性能,所以非必要情况下不需要启用事务功能。

但ORC表的问题在于,它是Hive特有的存储类型;所以在其它大数据产品中兼容性并不好,有些只有在较高的版本中才会支持。

Parquet

Parquet表也是Hive计算的主要表形式,它的计算性能稍弱于ORC表;但因为Parquet文件是Hadoop通用的存储格式,所以对于其它大数据组件而言,具有非常好的数据兼容度;

而且Parquet表可以支持数据的多重嵌套(如JSON的属性值可以是一个对象,且支持嵌套),但ORC表在多重嵌套上的性能并不好。

Parquet支持uncompressed\snappy\gzip\lzo压缩;其中lzo压缩方式压缩的文件支持切片,意味着在单个文件较大的场景中,处理的并发度会更高;因为一个压缩文件在计算时,会运行一个Map任务进行处理,如果这个压缩文件较大,处理效率就会降低。

对于ORC表和Parquet表的选择要区分使用场景,如果只在Hive中处理时使用,追求更高效的处理性能,且单个文件不是很大,或者需要有事务的支持,则选用ORC表。

但如果要考虑到与其它大数据产品的兼容度,且单个文件较为庞大,数据存在多重嵌套,则选用Parquet表。

AVRO

AVRO表,它主要为Hadoop提供数据序列化和数据交换服务,支持二进制序列化方式。

因为AVRO是Hadoop生态圈中,常用的一种用于数据交换、序列化的数据类型,它与Thrift类似。

但要与TextFile区分开来,TextFile文本方式是常见的存储类型,基本所有系统都支持;

但一般而言,在数据传输中,不会直接将文本发送出去,而是先要经过序列化,然后再进行网络传输,AVRO就是Hadoop中通用的序列化标准。

所以,如果数据通过其他Hadoop组件使用AVRO方式传输而来,或者Hive中的数据需要便捷的传输到其他组件中,使用AVRO表是一种不错的选择。

关于大数据培训,Hive表类型和适用场景,以上就为大家做了简单的介绍了。Hive在实际生产环境当中,一般用得比较多还是TextFile、Orc、Parquet这三样,TextFile主要支持导入、导出;ORC和Parquet表则更多作为分析运算的主要表类型。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析与挖掘,零基础班本月正在招生中,课程大纲及试听课程可联系客服获取!
热点排行
推荐文章
立即申请>>