hadoop sqoop hive
文章平均质量分 73
tobyqiu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop 环境
1. 下载 hadoop 1.1.2 ... 2. 参考 http://hadoop.apache.org/docs/r1.1.2/single_node_setup.html 安装 伪分布节点. 遇到各种狗血问题.(服务器启动看 log) 1)端口被占了,没root 权限 不能看进程号,也不能kill ... 只有改端口. hdfs-site.xml <...原创 2013-04-01 17:19:06 · 107 阅读 · 0 评论 -
sqoop 1.4.4 使用3
这次使用 压缩,因为压不压相差10倍呢,但是不使用 sequencefile ,因为打算在hive 中使用 RCFIle来存数据, --compress --compression-codec org.apache.hadoop.io.compress.BZip2Codec 使用的Bzip 当然hive的表也自动存为Bzip的. 但是 如果hive 使用RCFile 存储...原创 2014-04-03 08:50:10 · 114 阅读 · 0 评论 -
Hive Join 优化 翻译
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin目录结构 Join Optimization ----Join 调优 Improvements to th...原创 2014-04-02 22:10:19 · 457 阅读 · 0 评论 -
Hive 的join
直接就总结了 1. join 中不能包含不等的操作( 大于,小于,不等) select * from a inner join b on a.a>b.a 2.Join 中也不能有 OR 这种谓词 3.小表在前,大表在后 4.但是也可以颠倒,但是要用 STREAMTABLE来指定那个是大表 SELECT /*+ STREAMTABLE(a) */ a.v...原创 2014-04-01 16:02:04 · 306 阅读 · 0 评论 -
sqoop 1.4.4 使用2
如果数据库类型是 date类型的就比较麻烦了,直接搞进hive 不行,因为hive只有timestamp,而去format还是 yyyy-mm-dd hh:mm:ss的 有2个办法,先导入临时表 ,临时表是string的类型(String的format是 yyyy-mm-dd),然后再往正式表里插 insert overwrite table adventureworksdw.dimda...原创 2014-03-26 15:19:38 · 131 阅读 · 0 评论 -
sqoop 1.4.4 使用1
1.修改配置 /home/sqoop-1.4.4/conf/sqoop-env.sh export HADOOP_COMMON_HOME=/home/hadoop-2.3.0 export HADOOP_MAPRED_HOME=/home/hadoop-2.3.0 #export HBASE_HOME=/usr/local/hbase export HIVE_HOME=/home/...原创 2014-03-26 14:48:56 · 164 阅读 · 0 评论 -
Sqoop 1.99.3 with hadoop-2.3.0 使用 3
使用压缩来看看 sqoop:000> update job --jid 1 Compression format: 0 : NONE 1 : DEFAULT 2 : DEFLATE 3 : GZIP 4 : BZIP2 5 : LZO 6 : LZ4 7 : SNAPPY Choose: 3 Output directory:...原创 2014-03-20 16:46:02 · 138 阅读 · 0 评论 -
Sqoop 1.99.3 with hadoop-2.3.0 使用 2
连接建好 就开始建Job了 sqoop:000> create job --xid 1 --type import Creating job for connection with id 1 Please fill following values to create new job object Name: dimDate Database configuration ...原创 2014-03-20 15:33:57 · 145 阅读 · 0 评论 -
Sqoop 1.99.3 with hadoop-2.3.0 使用1
使用 sqoop-1.99.3-bin-hadoop200 配置如下1.解压tar -xvf sqoop--bin-hadoop.tar.gz 2.加入配置文件 server/conf/catalina.properties 中的common.loader 属性加入hadoop2的lib因为hadoop_home 下的lib是空的 所以指向 /home/hadoop-2.3.0/share/h...原创 2014-03-19 16:54:58 · 196 阅读 · 0 评论 -
Hive 压缩比较
set hive.exec.compress.intermediate=false; set mapred.output.compress=false; create table a as select * from dimdate; Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDat...2014-05-21 11:10:17 · 213 阅读 · 0 评论 -
Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数
翻译自 https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation%2C+Cube%2C+Grouping+and+Rollup这篇文章是用来描述优化集合函数 group by 的, 这些函数是0.10版本以后才被添加进hive的,并且在0.11中做了优化。GROUPING SETS clause (G...原创 2014-05-16 11:08:53 · 212 阅读 · 0 评论 -
Statistics in Hive (hive的统计信息搜集) 翻译
原文 https://cwiki.apache.org/confluence/display/Hive/StatsDev hive的统计信息搜集 动机 范围 执行 用法 变量配置 全新的表 现有的表 例子 Motivation 动机 统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优...原创 2014-05-13 21:49:13 · 1389 阅读 · 0 评论 -
HIVE JDBC
第一步 要开 HIVE server //jdbc 端口 hive --service hiveserver //web 端口 hive --service hwi //如果后台运行 就应该加 nohup hive --service hiveserver nohup hive --service hwi //后台后 要kill的话 只能 用 kill ...原创 2013-07-08 17:38:21 · 467 阅读 · 0 评论 -
CYGWIN SSH domain login
使用域帐户登录 ,参考 https://www.ibm.com/developerworks/community/wikis/home?lang=en#!/wiki/Tivoli%20Application%20Dependency%20Discovery%20Manager/page/Setting%20up%20a%20Cygwin%20OpenSSH%20Server%20for%20W...原创 2013-05-20 11:27:08 · 231 阅读 · 0 评论 -
Hive 配置
下载hive 现在的版本是0.10, 打算是吧元数据存在mysql 里面的. 1.设置 hive_home 环境 2.在 /hive_home/conf 下 添加配置文件 <configuration> <property> <name>hive.metastore.local</name> ...原创 2013-04-22 16:32:02 · 138 阅读 · 0 评论 -
hadoop WordCount 运行
配好Eclipse 就去 http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html 抄了段代码. Example: WordCount v1.0 然后 Eclipse 跑一下. 在参数设置 input 和output hdfs://10.221.62.68:9000/tmp/hadoop-oracli/input hdfs:...原创 2013-04-02 16:26:26 · 121 阅读 · 0 评论 -
ORC File 翻译
转帖翻译 http://www.iteblog.com/archives/1014 原文 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 一、定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种...原创 2014-04-22 16:30:51 · 452 阅读 · 0 评论
分享