
hadoop学习积累
shj1119
这个作者很懒,什么都没留下…
展开
-
udf udaf udtf
udf:用户自定义的函数,针对每一行,可以传递一列或者多列作为参数。udaf:用户自定义函数,但针对的是所有行,也就是聚合函数的意思。udtf:针对的是输入一行数据,输出多行数据的需求,类似于hive自带的explode函数。http://wdicc.com/udf-in-hive/原创 2013-04-22 11:31:48 · 872 阅读 · 0 评论 -
shell ---> \;和` `
当一个命令不希望被shell解释器解释的时候用\;,否则碰到;就会开始解释执行或者可以加上``这样就可以把值赋给其它变量把某文件清空cat /dev/null > 文件名原创 2013-11-27 19:37:24 · 1632 阅读 · 0 评论 -
setup函数
private String name;public void setup ( Context context ){this.name = context.getConfiguration().get("name");这样在map方法里就可以直接用this.name了}原创 2013-11-28 20:52:49 · 2660 阅读 · 0 评论 -
secondarysort
package com.test;/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information原创 2013-11-28 20:45:52 · 548 阅读 · 0 评论 -
threaduser
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.原创 2013-11-28 20:46:22 · 668 阅读 · 0 评论 -
totalperandsal
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache原创 2013-11-28 20:49:40 · 563 阅读 · 0 评论 -
文件读写
package com.test;import java.io.FileOutputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInp原创 2013-11-28 20:51:37 · 444 阅读 · 0 评论 -
mintemp
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;转载 2013-11-28 20:45:03 · 1259 阅读 · 0 评论 -
totalsalary
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;imp原创 2013-11-28 20:50:21 · 746 阅读 · 0 评论 -
hadoop maven构建资料
点击打开链接http://blog.fens.me/hadoop-maven-eclipse/转载 2013-12-08 19:00:32 · 447 阅读 · 0 评论 -
工作收获
awk -F\; '$5 !~ /\.(gif|js|css|jpg|ico|png)$|profile\.do/ {print}' ${FILE} | sort -r > /tmp/tmp_logsqoop export --connect jdbc:mysql://:3306/applogs --username mysql --password 123456 -m 1 --table原创 2013-11-28 21:11:41 · 530 阅读 · 0 评论 -
使用cloudera的hadoop资料
http://wiki.ubuntu.org.cn/%E5%88%A9%E7%94%A8Cloudera%E5%AE%9E%E7%8E%B0Hadoop#.E6.B5.8B.E8.AF.95Hadoophttp://www.cloudera.com/content/cloudera-content/cloudera-docs/HadoopTutorial/CDH4/Hadoop-Tutoria原创 2013-12-04 21:42:01 · 579 阅读 · 0 评论 -
hive经验
如果是左关联,最好写成:select a.id,b.namefrom (select * from lxw_t1 where pt = '2012-11-22') aleft outer join lxw_t2 b on (a.id = b.id);1.少用count(distinct); select count(distinct cooki转载 2013-12-08 22:23:00 · 506 阅读 · 0 评论 -
mr 分布式缓存学习
http://my.oschina.net/leejun2005/blog/206341转载 2015-07-14 17:27:13 · 727 阅读 · 0 评论 -
关于outputkey的设置
7周作业过程积累1 job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class);如果这里不指定或者指定的跟map方法体那里的定义不一致,会导致map无法执行2 trim的问题一定要注意, 有空格的话每个地方都要trim原创 2013-11-24 21:02:35 · 666 阅读 · 0 评论 -
win上eclipse链接hadoop集群
遇到的问题总结:(1)无法在dfs location处上传文件 在linux上开放hdfs目录权限,假设想上传文件到test目录,则hadoop dfs -chmod 777 /test(2)运行mr程序,控制台如下错误:13/11/16 11:53:16 ERROR security.UserGroupInformation: PriviledgedActionExc原创 2013-11-17 20:42:54 · 627 阅读 · 0 评论 -
mr中对于key value组合的特殊处理
今天看视频的收获有一个类型叫做nullWritable,默认的key和value之间用tab键分隔,如果key或者value本身自己定义的是用空格或者其它字符分隔的,不想让key和value之间用tab键,那么就可以使用nullwritable类型这样就不会输出任何东西,也不会有tab键。即如果value为1 2 3,最后的输出也是1 2 3那么我定义的输出的key就可以为nullwrit原创 2013-11-17 20:48:09 · 968 阅读 · 0 评论 -
hadoop namenode down的遭遇
正在往测试环境的hadoop集群上传文件,上传失败,提示put: Call to mymaster/123.168.12.6:9000 failed on local exception: java.io.EOFException后来关闭集群,并重启机器,namenode进程还是起不来,看日志,报错提示为:java.io.IOException: Incorrect data format原创 2013-04-19 13:36:22 · 2189 阅读 · 0 评论 -
hadoop命令
摘自http://blog.youkuaiyun.com/liangliyin/article/details/5984072 1 hadoop dfs -stat "%o" 文件路径:查看该文件的 分块情况,“ ”还可以是%b:打印文件大小(目录为0)%n:打印文件名%o:打印block size (我们要的值)%r:打印备份数%y:打印UTC日期 yyyy-MM转载 2013-05-16 15:04:28 · 597 阅读 · 0 评论 -
hadoop从节点cpu100%以上
出现了两次这样的情况了,集群的某个从节点出现cpu超标达到100%,甚至还要高一些的值==100.× 第一次不是我用的机器,找日志没找到有效信息,只那台从节点jps执行不了了,后来不记得怎么处理的了。 这一次是我自己用的机器,我知道最后一次执行的操作,是kill -9hive的run jar进程号,当时正在执行一个几百个map原创 2013-05-17 11:12:31 · 1837 阅读 · 0 评论 -
hadoop基础知识1
收集自网络几篇文章=====入门:知道MapReduce大致流程,map, shuffle, reduce知道combiner, partition作用,设置compression搭建hadoop集群,master/slave 都运行那些服务HDFS,replica如何定位版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1转载 2013-05-08 14:26:00 · 589 阅读 · 1 评论 -
hadoop中每个节点map和reduce个数的设置调优
来自http://zxjhx456789.blog.163.com/blog/static/121619722201212124032203/mapred.tasktracker.map.tasks.maximum 这个是一个task tracker中可同时执行的map的最大个数,默认值为2,看《pro hadoop》:it is common to set this value to t转载 2013-05-08 14:32:01 · 693 阅读 · 0 评论 -
hadoop调度器
http://dongxicheng.org/mapreduce/how-to-write-hadoop-schedulers/转载 2013-05-23 16:31:57 · 387 阅读 · 0 评论 -
hadoop稳定性与性能
http://dongxicheng.org/mapreduce/how-to-improve-hadoop-stablility-and-performance/http://dongxicheng.org/mapreduce/hadoop-adjust-heartbeat-interval/转载 2013-05-23 16:30:30 · 1065 阅读 · 0 评论 -
hadoop基准测试
http://dongxicheng.org/mapreduce/hadoop-gridmix-benchmark/http://www.tbdata.org/archives/1133转载 2013-05-23 16:30:05 · 452 阅读 · 0 评论 -
eclipse访问hdfs
通过eclipse插件访问远程集群上的hdfs时,如果想往某目录下写数据,需要先将目录的所有者赋给你的windows用户(hadoop dfs -chown -R win上登录用户名 hdfs上目录名)。(或者设为允许所有人写?未试过)原创 2013-10-30 18:55:56 · 782 阅读 · 0 评论 -
hadoop1.2.1 eclipse插件构造
编译过程目录结构 eclipse目录 F:\eclipse eclipse工程目录 F:\workspaceStep1 导入 Hadoop-eclipse 插件工程获取 hadoop-1.2.1.tar.gz解压缩到 Eclipse workspace 目录下在 Eclipse 中选择 File—>Import—>Existing P转载 2013-10-30 20:20:05 · 648 阅读 · 0 评论 -
hadoop上传文件报错:can only replicated to 0 node instead of 1
当时用dfsadmin -report 查看了节点状态都是正常的,每个节点上的进程也是正常的。能创建目录,就是不能上传文件。最后发现是因为从节点的防火墙没关。其它可参考的原因:磁盘空间不足,从节点未正常启动原创 2013-10-30 20:23:18 · 593 阅读 · 0 评论 -
hadoop操作配置格式化等
1 用ant jar命令重新编译了hadoop源码之后会生成build文件夹,hadoop重新启动的时候主节点namenode进程会根据build中的版本启动导致从节点的datanode进程与主节点的版本不一致2 必须关闭了hadoop集群再格式化主节点,否则会报错,dfs-name已经被锁定,无法再次锁定3 格式化的时候,如果secondary与namenode在一台机器上,要备份一原创 2013-10-30 18:59:37 · 903 阅读 · 0 评论 -
mr计数器
视频收获2:可以用enum定义一个计数器,在map方法处理行时,catch捕捉异常行,然后调用context获取counter,context.getCounter(Counter.***).increment(1)enum Counter{ ***}原创 2013-11-17 20:51:09 · 776 阅读 · 0 评论 -
hadoop启动dfs的warn问题解决
1 问题 在启动dfs,start-dfs.sh和hdfs dfs -ls /等命令执行的时候,一直出现WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2 原因 增加原创 2015-09-30 17:35:28 · 1740 阅读 · 0 评论