Hive使用ORC格式存储离线表-白红宇

Hive使用ORC格式存储离线表

阅读量：7236 次

发布时间：2019-06-29

本文共 2449 字，大约阅读时间需要 8 分钟。

在大数据时代，列式存储变得越来越流行了，当然并不是说行式存储就没落了，只是针对的场景不同，行式存储的代表就是我们大多数时候经常用的数据库，比较适合数据量小，字段数目少，查询性能高的场景，列式存储主要针对大多数互联网公司中的业务字段数目多，数据量规模大，离线分析多的场景，这时候避免大量无用IO扫描，往往提高离线数据分析的性能，而且列式存储具有更高的压缩比，能够节省一定的磁盘IO和网络IO传输。

基础环境如下：

Apache Hadoop2.7.1

Apache Hbase0.98.12

Apache Hive1.2.1

先看下列式存储的两个代表框架：

Apache Parquet比较适合存储嵌套类型的数据，如json，avro，probuf，thrift等

Apache ORC是对RC格式的增强，支持大多数hive支持的数据类型，主要在压缩和查询层面做了优化。

具体请参考这篇文章：

在hive中的文件格式主要如下几种：textfile：默认的文本方式Sequencefile：二进制格式rcfile：面向列的二进制格式orc：rcfile的增强版本，列式存储parquet：列式存储，对嵌套类型数据支持较好hive文件支持压缩方式：这个与底层的hadoop有关，hadoop支持的压缩，hive都支持，主要有：gzip,bizp,snappy,lzo

文件格式可以与压缩类似任意组合，从而达到比较的压缩比。

下面看下具体以orc为例子的场景实战：

需求：

将Hbase的表的数据，加载到Hive中一份，用来离线分析使用。

看下几个步骤：

（1）集成Hive+Hbase，使得Hive可以关联查询Hbase表的数据，但需要注意的是，hbase表中的每个字段都有时间戳版本，而进行hive映射时是没办法

指定的timestamp的，在hive1.x之后可虽然可以指定，但是还是有问题的，不建议使用，如果想要标识这一个rowkey的最后修改或者更新时间，可以单独添加一个字段到hbase表中，

然后就可以使用Hive映射了。

关于hive+hbase集成，请参考这篇文章：

（2）使用hive建立一个外部表，关联hbase，sql文件如下：

drop table  if exists  etldb_hbase; CREATE EXTERNAL  TABLE etldb_hbase(rowkey string,cnum string,conn string,cntype string,cct string,ctitle string,curl string,murl string,mcat1  string,mcat2 string,mcat3 string,mtitle string,mconn string,mcourtid string,mdel string,ctime string)              STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'        WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,content:casenum,content:conn,content:contentType,content:contentabstract,content:title,content:url,meta:websiteType,meta:documentType,meta:spiderTypeFirst,meta:spiderTypeSecond,meta:title,meta:content,meta:hearOrganization,meta:isdelete,content:createTime")   TBLPROPERTIES ("hbase.table.name" = "ETLDB");

执行sql文件的hive命令：hive -f xxx.sql

执行sql字符串的hive命令： hive -e " select * from person "

（3）由于orc格式，无法直接从text加载到hive表中，所以需要加入一个中间临时表，用于中转数据，先将

text数据导入一个文件格式weitextfile的表，然后再把这个表的数据直接导入orc的表，当然现在我们的数据源

在hbase中，所以，先建立hive关联hbase的表，然后在建里一个orc的表，用来放数据，sql如下：

drop table  if exists  etldb; CREATE   TABLE etldb(rowkey string,cnum string,conn string,cntype string,cct string,ctitle string,curl string,murl string,mcat1  string,mcat2 string,mcat3 string,mtitle string,mconn string,mcourtid string,mdel string,ctime string)stored as orc  --stored as textfile;tblproperties ("orc.compress"="SNAPPY");--从临时表，加载数据到orc中insert into table etldb select * from etldb_hbase;

（4）加载完成后，就可以离线分析这个表了，用上orc+snappy的组合，查询时比直接

hive关联hbase表查询性能要高一点，当然缺点是数据与数据源hbase里的数据不同步，需要定时增量或者全量，用于离线分析。

转载于:https://my.oschina.net/hulubo/blog/915080

你可能感兴趣的文章

[转载] New Concept English 1——Lesson 9 How are you today？