hive-0.7.1
hbase-0.90.3
hadoop-0.20.203.0
三个NODE
在有了HBASE+HADOOP之后,数据的统计成了问题,MAP REDUCE是我们想用的功能,借助HIVE来连接HBASE
一、准备
为了能使HIVE多用户操作,在NAMENODE上建立MYSQL,
1、建立MYSQL DATABASE
2、建立用户和密码
mysql> create database hive;
Query OK, 1 row affected (0.02 sec)
过程略,对于我们DBA来说非常容易。
二、安装
HIVE
下载最新版hive:http://hive.apache.org/
1.解压缩
2.配置
关键配置文件为:conf/hive-site.xml
由于conf里没有hive-site.xml文件,复制hive-default.xml改名即可
cp hive-default.xml hive-site.xml
修改内容:
<property>
<name>
hive.zookeeper.quorum
</name>
<value>
dm2,dm3,dm4
</value>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/home/hadoop/hive/warehouse</value>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?characterEncoding=UTF-8;databaseName=hive;create=true</value>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
添加内容:
<property>
<name>hbase.zookeeper.quorum</name>
<value>dm2,dm3,dm4</value>
--备注:我这里的3个 HBASE datanode ,使用HBASE自己维护的ZOOKEEPER
<property>
<name>hive.aux.jars.path</name>
<value>file:///usr/hadoop/hive-0.7.1/lib/hive-hbase-handler-0.7.1.jar,file:///usr/hadoop/hive-0.7.1/lib/zookeeper-3.3.1.jar,file:///usr/hadoop/hive-0.7.1/lib/hbase-0.90.3.jar
</value>
--备注:这里的文件后面有描述
</property>
---------------------------
需要注意:
一个jar包mysql-connector-java-5.1.15-bin.jar拷贝到hive的lib目录下才行,否则执行语
句的时候会报错,类似下面这样
hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalInternalException:
Error creating transactional connection factory
NestedThrowables:
java.lang.reflect.InvocationTargetException
FAILED: Execution Error, return code 1 from
org.apache.hadoop.hive.ql.exec.DDLTask
文件:
mysql-connector-java-5.1.15-bin.jar
网址:http://www.mysql.com/products/connector/
下载:
JDBC Driver for MySQL (Connector/J)
复制:
/usr/hadoop/hive-0.7.1/lib/
-------------------------
复制/usr/hadoop/hbase-0.90.3/hbase-0.90.3.jar到hive的lib下
然后删除
hbase-0.89.0-SNAPSHOT.jar
-------------------------
3、设置环境变量
sudo vi /etc/profile添加:
export HIVE_HOME=/usr/hadoop/hive-0.7.1
export PATH=/usr/local/mysql/bin:$HIVE_HOME/bin:$PATH
三、启动与使用HIVE
其实应该说是登录hive
1、进入
$HIVE_HOME
hadoop@dm1:/usr/hadoop/hive-0.7.1$ ./bin/hive
WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated.
Please use org.apache.hadoop.log.metrics.EventCounter in all the
log4j.properties files.
Hive history file=/tmp/hadoop/hive_job_log_hadoop_201111251707_674291674.txt
hive>
2、用HIVE在HBASE上建表
下面建表会在HBASE中创建表
CREATE TABLE hbase_tb(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "hbase_tb");
3、HIVE中建表关联HBASE中已存在的表
先在HBASE建表 create 'test','data';
然后在HIVE建表,用扩展:
CREATE EXTERNAL
TABLE hbase_test(key string, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "data:1")
TBLPROPERTIES("hbase.table.name" = "test");
上面的两张表在HBASE 中put,或者在HIVE中LOAD,均可在另一边看到数据。
分享到:
相关推荐
也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的...
Kafka的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用Storm进行计算,结果输出到...公司内部开发者使用数据开发平台访问大数据平台,进行ETL(数据提取、转换、装载)开发,提交任务作业并进行数据管理。
也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的...
134_hive同hbase集成,统计hbase数据表信息% Q/ R! Z1 J3 J) k+ H! {6 D# M 135_使用TableInputFormat进行MR编程! m& C6 B/ v6 N" `, I' O& }4 u 136_使用phoenix交互hbase& h* s5 S- ~6 ]: u7 \ 137_squirrel工具. ...
此外,Hadoop已 经具有了强⼤稳定的⽣态系统,有很多延伸产品,如Hive,HBase,Sqoop,ZooKeeper等等。Hadoop的这些优势,使其成为⼤数据处 理的⾸选平台和开发标准。我们⽬前进⾏的⼤数据学习研究也是基于Hadoop...
第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库mysql方式安装配置.avi 03-hive的使用.avi 04-hive的常用语法.avi 05-hql语法及自定义函数.avi 06-hbase表结构.avi 07-hbase集群架构及表存储机制....
在开放平台体系下,OAuth协议如何保障ISV对数据的访问是经过授权的合法行为。 3.1 常见的Web攻击手段 128 3.1.1 XSS攻击 128 3.1.2 CRSF攻击 130 3.1.3 SQL注入攻击 133 3.1.4 文件上传漏洞 139 3.1.5...
案例研究12.1 转换《纽约时报》1100 万个库存图片文档12.2 挖掘中国移动的数据12.3 在StumbleUpon 推荐最佳网站12.3.1 分布式StumbleUpon 的开端12.3.2 HBase 和StumbleUpon12.3.3 StumbleUpon 上的更多Hadoop 应用...
Hive及Hadoop群 11.1 Hive 11.1.1 安装与配置Hive 11.1.2 查询的示例 11.1.3 深入HiveQL 11.1.4 Hive小结 11.2 其他Hadoop 相关的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera ...
-----------欢迎访问------------ 我的个人博客: 我的个人公众号:GoAl分享 大数据优秀博客推荐: 过往记忆大数据博客: 董西城博客: lwx的数据田地: 美团技术团队: 林子雨厦门大学实验室: 大数据学习书签: ...
6.4 分布式结构化数据表HBase 197 6.4.1 逻辑模型 198 6.4.2 物理模型 198 6.4.3 子表服务器 199 6.4.4 主服务器 199 6.4.5 元数据表 200 6.5 Hadoop安装 200 6.5.1 在Linux系统中安装Hadoop 200 6.5.2 在Windows...
20110.9 小结 206第11章 Hive及Hadoop群 20711.1 Hive 20711.1.1 安装与配置Hive 20811.1.2 查询的示例 21011.1.3 深入HiveQL 21311.1.4 Hive小结 22111.2 其他Hadoop相关的部分 22111.2.1 HBase 22111.2.2 ...
206第11章 Hive及Hadoop群 20711.1 Hive 20711.1.1 安装与配置Hive 20811.1.2 查询的示例 21011.1.3 深入HiveQL 21311.1.4 Hive小结 22111.2 其他Hadoop相关的部分 22111.2.1 HBase 22111.2.2 ...