博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive使用ORC格式存储离线表
阅读量:7236 次
发布时间:2019-06-29

本文共 2449 字,大约阅读时间需要 8 分钟。

  hot3.png

在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的磁盘IO和网络IO传输。 

基础环境如下: 
Apache Hadoop2.7.1 
Apache Hbase0.98.12 
Apache Hive1.2.1 
先看下列式存储的两个代表框架: 
Apache Parquet比较适合存储嵌套类型的数据,如json,avro,probuf,thrift等 
Apache ORC是对RC格式的增强,支持大多数hive支持的数据类型,主要在压缩和查询层面做了优化。 
具体请参考这篇文章: 
 

在hive中的文件格式主要如下几种:textfile:默认的文本方式Sequencefile:二进制格式rcfile:面向列的二进制格式orc:rcfile的增强版本,列式存储parquet:列式存储,对嵌套类型数据支持较好hive文件支持压缩方式:这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:gzip,bizp,snappy,lzo

文件格式可以与压缩类似任意组合,从而达到比较的压缩比。 
下面看下具体以orc为例子的场景实战: 
需求: 
将Hbase的表的数据,加载到Hive中一份,用来离线分析使用。 
看下几个步骤: 
(1)集成Hive+Hbase,使得Hive可以关联查询Hbase表的数据,但需要注意的是,hbase表中的每个字段都有时间戳版本,而进行hive映射时是没办法 
指定的timestamp的,在hive1.x之后可虽然可以指定,但是还是有问题的,不建议使用,如果想要标识这一个rowkey的最后修改或者更新时间,可以单独添加一个字段到hbase表中, 
然后就可以使用Hive映射了。 
关于hive+hbase集成,请参考这篇文章: 
(2)使用hive建立一个外部表,关联hbase,sql文件如下: 
 

drop table  if exists  etldb_hbase; CREATE EXTERNAL  TABLE etldb_hbase(rowkey string,cnum string,conn string,cntype string,cct string,ctitle string,curl string,murl string,mcat1  string,mcat2 string,mcat3 string,mtitle string,mconn string,mcourtid string,mdel string,ctime string)              STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'        WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,content:casenum,content:conn,content:contentType,content:contentabstract,content:title,content:url,meta:websiteType,meta:documentType,meta:spiderTypeFirst,meta:spiderTypeSecond,meta:title,meta:content,meta:hearOrganization,meta:isdelete,content:createTime")   TBLPROPERTIES ("hbase.table.name" = "ETLDB");

执行sql文件的hive命令:hive -f xxx.sql 
执行sql字符串的hive命令: hive -e "  select * from person " 
(3)由于orc格式,无法直接从text加载到hive表中,所以需要加入一个中间临时表,用于中转数据,先将 
text数据导入一个文件格式weitextfile的表,然后再把这个表的数据直接导入orc的表,当然现在我们的数据源 
在hbase中,所以,先建立hive关联hbase的表,然后在建里一个orc的表,用来放数据,sql如下: 
 

drop table  if exists  etldb; CREATE   TABLE etldb(rowkey string,cnum string,conn string,cntype string,cct string,ctitle string,curl string,murl string,mcat1  string,mcat2 string,mcat3 string,mtitle string,mconn string,mcourtid string,mdel string,ctime string)stored as orc  --stored as textfile;tblproperties ("orc.compress"="SNAPPY");--从临时表,加载数据到orc中insert into table etldb select * from etldb_hbase;

(4)加载完成后,就可以离线分析这个表了,用上orc+snappy的组合,查询时比直接 
hive关联hbase表查询性能要高一点,当然缺点是数据与数据源hbase里的数据不同步,需要定时增量或者全量,用于离线分析。 
 

转载于:https://my.oschina.net/hulubo/blog/915080

你可能感兴趣的文章
[转载] New Concept English 1——Lesson 9 How are you today?
查看>>
清除linux系统自带jdk java
查看>>
Scala 函数式编程_偏函数_Partial Functions
查看>>
基于testcontainers的现代化集成测试进阶之路
查看>>
免费CAD看图软件将图纸打开后如何管理其图层?
查看>>
关于MongoDB的几点注意事项
查看>>
phpmyadmin和wordpress的安装应用
查看>>
我的友情链接
查看>>
NDS服务器之简单功能应用
查看>>
Informix 11.5 SQL 语句性能监控方法及实现(set explain on 执行计划)
查看>>
linux命令
查看>>
函数式编程 map,reduce,filter,lambda
查看>>
我的友情链接
查看>>
JavaScript字符集编码与解码
查看>>
JS input 限制输入类型
查看>>
XenMotion 与HA的区别
查看>>
我的友情链接
查看>>
这些年正Android - 大纲
查看>>
Sql 工具的使用
查看>>
ASA的Easy ***配置步骤
查看>>