
hadoop
文章平均质量分 67
zhangbaoming815
这个作者很懒,什么都没留下…
展开
-
hive中分区表,桶的使用
hive中分区表的使用: 1.创建一个分区表,以ds为分区列:create table invites (id int, namestring) partitioned by (ds string) row format delimited fieldsterminated by '\t' stored as textfile;2...原创 2012-07-12 20:14:03 · 122 阅读 · 0 评论 -
hadoop中LineReader的readLine方法解析
Hadoop默认的读取一条数据,使用的就是LineReader的readLine方法,这个方法具体怎么工作,可以直接看源码,因为比较复杂,所以加上一些注释: /** * Read one line from the InputStream into the given Text. A line can be * terminated by one of the ...原创 2013-07-31 18:34:11 · 787 阅读 · 0 评论 -
使用MapReduce往Hbase插入数据
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.clien...原创 2012-11-11 21:11:11 · 240 阅读 · 0 评论 -
hadoop新版本多文件输出
基于Hadoop 1.0.1版本编写,在hadoop 1.0.1 + 版本应该都可以使用import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import...原创 2013-04-19 15:24:31 · 136 阅读 · 0 评论 -
hbase整合hive
将对hbase-0.90.6和hive-0.8.1进行集成,使用的hadoop-0.20.21.首先将hbase-0.90.6.jar和zookeeper-3.3.2.jar复制到hive/lib目录下...原创 2012-07-25 19:05:22 · 87 阅读 · 0 评论 -
hive处理特殊分割符的日志
在平时使用的都是指定分割符的存储,在遇到特殊符号的,比如有好几个字符相连的,hive是不能自己处理的,这时候就需要在inputformat/outputformat上处理:实现这个功能需要实现两个函数:一个是InputFormat的next函数:在这里处理的特殊字符是 @##@ 分割符号: @Override public boolean next(Long...原创 2012-07-24 21:49:04 · 170 阅读 · 0 评论 -
jdbc连接hive
使用jdbc连接hive1.开启集群: start-all.sh2.启动服务: hive--service hiveserver3.加入必要的jar包: hadoop-x.xx.x-core.jar和 hi...原创 2012-07-24 17:22:52 · 140 阅读 · 0 评论 -
hadoop实现自定义的数据类型
关于自定义数据类型,http://book.douban.com/annotation/17067489/ 一文中给出了一个比较清晰的说明和解释。以wordCount为例子定义自己的数据类型Http类import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import ...原创 2013-04-08 14:59:44 · 269 阅读 · 0 评论 -
在集群上运行hadoop程序
p { margin-bottom: 0.08in; }在hadoop集群上执行程序:这里只是简单的实现文件的读取工作:1.开启hadoop: start.all.sh注意在开启hadoop后并不能马上进行下面的操作,hadoop...原创 2012-07-20 20:32:30 · 329 阅读 · 0 评论 -
pig的一些基本函数的应用
1.加载数据: records=load './Desktop/data.txt' using PigStorage as(year:int,temperature:int, quality:int);2.查看数据: dumprecords;3.根据quality字段对records...原创 2012-07-17 19:01:27 · 346 阅读 · 0 评论 -
pig中python的使用
WritingPython UDFs 1.writepython script:@outputSchema("word:chararray")def helloworld(): return 'Hello, World'@outputSchema("word:chararray,num:long")def complex(word):...原创 2012-07-17 18:11:06 · 351 阅读 · 0 评论 -
pig的UDF函数的使用
<!-- @page { margin: 0.79in } P { margin-bottom: 0.08in } A:link { so-language: zxx } --> 在pig中使用UDF函数:1,编写UDF函数: im...原创 2012-07-14 21:40:13 · 201 阅读 · 0 评论 -
在eclipse下运行Map-Reduce程序
在eclipse下运行Map-Reduce程序:1,在eclipse新建项目。File-->New-->Other-->Map/ReduceProject 项目名可以随便取,如HadoopTest。复制hadoop安装目录/src/exa...原创 2012-07-12 20:27:08 · 261 阅读 · 0 评论 -
hadoop源码解析copyFromLocal
好奇分布式存储是怎么实现的,如何能将一个文件存储到HDFS上,HDFS的文件目录只是一个空壳,真正存储数据的是DataNode,那么当我们把一个文件放到HDFS上的时候,集群都做了哪些工作呢 ?也就是执行命令copyFromLocal这个命令都做了哪些操作首先命令肯定对应着源码里面的某一个方法,这个方法是FsShell类的copyFromLocal,代码: void copyFr...原创 2013-08-07 17:51:14 · 928 阅读 · 0 评论