
hadoop
longshenlmj
这个作者很懒,什么都没留下…
展开
-
hadoop基本配置信息
获取默认配置:引自http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,转载 2013-01-10 16:42:22 · 877 阅读 · 0 评论 -
mapreduce实现"浏览该商品的人大多数还浏览了"经典应用
输入:日期 ...cookie id. ...商品id..xx xx xx输出:商品id 商品id列表(按优先级排序,用逗号分隔)xx xx比如:id1 id3,id0,id4,id2id2 id0,id5整个计算过程分为4步1、提取原始日志日期,cookie id,商品id信息,按天计算,最后输出数据格式商品id-0 商品id-1 xx x x转载 2014-06-06 17:17:07 · 1052 阅读 · 0 评论 -
oozie note
Oozie: 基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。一种Java Web应用程序,运行在Java servlet容器——即Tomcat——中,主要的功能:有Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)Coordinator,定时触发workflowBundle原创 2014-07-25 16:17:11 · 1017 阅读 · 0 评论 -
pig基础知识总结
Pig Latin UDF语句REGISTER 在Pig运行时环境中注册一个JAR文件DEFINE 为UDF、流式脚本或命令规范新建别名 Pig Latin命令类型kill 中止某个MapReduce任务exec 在一个新的Grunt shell程序中以批处理模式运行一个脚本run 在当前Grunt外壳程序中运行程序quit 退出解释器原创 2014-08-12 17:28:18 · 3438 阅读 · 0 评论 -
hadoop fs命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对 HDFS文件系统,scheme是hdfs ,对本地文件系统,scheme是file 。其中scheme和 authority参数都是可选的,如果未加指定,就会使用配置中指定转载 2014-09-04 18:26:55 · 1073 阅读 · 0 评论 -
hadoop cdh5的pig隐式转化(int到betyarray)不行了
cdh3上,pig支持int到chararray的隐式转化,但到cdh5不行。pig code is as follows:%default Cleaned_Log /user/usergroup_mdmp/test/cleaned/2015-01-05/5/part-r-00000%default Industry_Path /user/usergroup_mdmp/test/r原创 2015-01-12 17:43:42 · 1135 阅读 · 0 评论 -
hadoop jar包中mapred和mapreduce的区别
(先引个别人的,自己的以后再写)FileInputFormat和FileOutputFormat在mapred和mapreduce中都有定义,刚开始脑海里对这些都没有概念,就引用了mapreduce中的FileInputFormat和FIleOutputFormat。这样操作就带来了后面的问题FileInputFormat.setInputPaths(job, in);FileOu转载 2013-05-28 19:48:07 · 1385 阅读 · 0 评论 -
hadoop队列管理(指定queue跑程序)
Hadoop 队列管理:配置Queue相关信息•配置属性在mapre-site.xml配置Queue的相关信息 mapred.acls.enabled true mapred.queue.names test,default 属性mapred.queue.names 是 queue 的所有名字,在这一名字中,必须有一个叫“ default”的 queue原创 2014-09-09 18:01:28 · 28024 阅读 · 0 评论 -
hadoop的使用记录
env:显示当前用户的环境变量set:显示shell的所有环境变量,包括用户的。export:显示当前导出成用户变量的shell变量。当前用户变量和你用什么shell无关,不管你用什么shell都是存在的。比如HOME,SHELL等这些变量,但shell中自己的变量,不同的shell是不同的,比如BASH_ARGC, BASH等,这些变量只有set才会显示,是bash特有的。expor原创 2013-05-15 19:24:25 · 928 阅读 · 0 评论 -
hadoop的fs基本命令
调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目转载 2013-05-14 20:21:30 · 1247 阅读 · 0 评论 -
Hadoop的运行痕迹
http://www.cnblogs.com/forfuture1978/archive/2010/11/23/1884967.html一篇讲的很好的 hadoop 基本运行环境配置信息转载 2015-01-21 12:05:07 · 831 阅读 · 0 评论 -
hadoop小知识札记
hadoop实现全局变量: 只读的可以,可修改的不行,只读的可以通过configuration 或者分布式缓存实现。 hadoop做图像处理时,每个map读入一个图片,每个map读入一张图片,然后所有的map还要读取一张全局图片再两张图片一起处理每个map读取一个,会产生太多的map,可以一个map读取多个。但最好,把文件放到HBase中,用MR处理。因为hdfs存大量小原创 2013-12-02 16:29:45 · 1421 阅读 · 0 评论 -
hadoop端口使用配置总结(非常好的总结)
转自http://www.aboutyun.com/thread-7513-1-1.htmlHadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase,转载 2015-04-20 11:21:29 · 5623 阅读 · 0 评论 -
Hadoop基本知识,(以及MR编程原理)
1,一个map可能在多个节点上运行: 如果map运行过慢,就会在别的节点上重开一个,两个谁先跑完就取谁的结果,然后杀掉另一个。 2,如果有百个节点左右的集群想要做hadoop版本升级,有没有什么好办法?希望能稳定,最好不影响每天凌晨的定时作业。 升级一般都要一起升,因为是跨版本。如果是不跨版本,比如1.x中各版本之间升级则可以不用。如果是1.0升到2.0,则需要停集原创 2013-12-09 16:09:33 · 4249 阅读 · 0 评论 -
hadoop任务监控页面namenode:50030(在hadoop配置中查找集群jobtracker的ip,访问50030)
公司集群,配置的hadoop。执行job,想去看看运行状态,却不知道jobtracker的机器ip:查询hadoop 的jobtrack机器的ip,就查看文件conf/mapred-site.xmlmapred.job.trackernode1:49001mapred.local.dir/home/hadoop/hadoop_home/var原创 2013-12-12 21:27:53 · 8333 阅读 · 0 评论 -
hive的数据导入与数据导出:(本地,云hdfs,hbase),列分隔符的设置,以及hdfs上传给pig如何处理
1数据导入--------------CREATE EXTERNAL TABLE wizad_mdm_dev_lmj_edition_20141120 (cookie_id STRING,guid STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'stored a原创 2014-11-26 18:13:22 · 26894 阅读 · 2 评论 -
hive指定hadoop执行队列
指定队列的命令:有三种:set mapred.job.queue.name=queue3;SET mapreduce.job.queuename=queue3;set mapred.queue.names=queue3;老版本一般 mapred开头 新版本是mapreduce开头 老版本对应的新版本参数可以查出来队列自己设定,测试时注意select * from tb 不会产生map re原创 2016-07-22 12:52:40 · 46662 阅读 · 0 评论 -
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)
数据做压缩和解压缩总会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销最好对那些I/O密集型的作业使用数据压缩hive表的存储格式为 TEXTFILE SEQUENCEFILE(三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩) RCFILE 自定义格式原创 2016-01-20 19:49:44 · 29123 阅读 · 1 评论 -
虚拟化云计算
虚拟化其实就是,将物理资源与应用隔开,用一套虚拟的系统,管理和重新分配资源,如虚拟硬盘。简单的说两种1:N,将一台物理服务器虚拟成N原创 2014-05-12 11:29:31 · 969 阅读 · 0 评论 -
hadoop 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://www转载 2013-12-13 16:36:32 · 12234 阅读 · 0 评论 -
hadoop不能用root用户启动,会报错
[Hadoop]问题记录:Hadoop在root用户下启动错误:File /user/root/input/slaves could only be replicated to 0 nodes, in 分类: 分布式计算2011-08-03 11:341345人阅读评论(0)收藏举报在盛大云上启动了一个虚拟机,默认用户是root,运行hadoo转载 2013-01-10 22:17:18 · 4773 阅读 · 0 评论 -
hadoop 统计一个目录的文件大小
du使用方法:hadoop fs -du URI [URI …]指定目录时,显示该目录中所有文件的大小,而当只指定一个文件时,只显示此文件的大小。示例:hadoop fs -du /user/hadoop/dir1返回值:成功返回0,失败返回-1。dus 使用方法:hadoop fs -dus 显示文件的大小原创 2013-01-11 15:59:40 · 22053 阅读 · 0 评论 -
hadoop jar xxxx.jar 执行的流程
搞清楚 hadoop jar xxxx.jar 执行的流程: jar文件是如何分发的JobClient(不一定是hadoop集群的节点)利用bin/hadoop脚本运行jar包,以hadoop-0.20.2-examples.jar为例子:hadoop jarhadoop-0.20.2-examples.jar[class name]的实质是:1.利用hadoop这个脚本启转载 2013-03-25 13:42:51 · 3584 阅读 · 0 评论 -
QQ416310084总结的hadoop实战2的错误
原创 2013-04-28 10:11:29 · 913 阅读 · 0 评论 -
hadoop输出控制,输出到指定文件中
最近在研究将hadoop输出内容放到指定的文件夹中,(未完待续)以wordcount内容为例子:public class wordcount { public static class TokenizerMapper extends Mapper { private final static IntWritable on原创 2013-05-29 20:15:53 · 3939 阅读 · 3 评论 -
hadoop启动后进safemode不出来
今天在测试的时候,数据正在入库。突然断电了。重启动以后,启动./start-dfs.sh以后,查看日志,会报出2012-04-13 15:39:43,208 INFO org.apache.hadoop.ipc.Server: IPC Server handler 9 on 8020, call rollEditLog() from 196.1.2.160:34939: error: or转载 2013-06-05 19:43:26 · 1845 阅读 · 0 评论 -
hadoop获取context的当前输出路径,
我想看一下路径,然后判断文件是否存在?你妹的,真麻烦?找个半天,用import org.apache.hadoop.io.MapFile;这个类,很恶心,自己查。 知道肯定跟Configuration,查了半天用这个:String name =context.getConfiguration().get("mapred.output.dir");顺便判断个文件存在:原创 2013-06-07 21:19:47 · 1934 阅读 · 0 评论 -
hadoop文件输出控制,多路径输出到不同文件
hadoop的map和reduce的输出路径是通过两个函数设定:FileInputFormat.setInputPaths(job, args[0]);FileOutputFormat.setOutputPath(job, new Path(args[1]));然后,用context类型对象,通过write(key,value)完成输出。现在我需要实现将key和value写到一个文原创 2013-06-07 21:10:05 · 10209 阅读 · 1 评论 -
hadoop集群崩溃,因为tmp下/tmp/hadoop-hadoop/dfs/name文件误删除
hadoop执行start-all后,显示正常启动。starting namenode, logging to /opt/hadoop-0.20.2-cdh3u0/logs/hadoop-hadoop-namenode-localhost.localdomain.outlocalhost: starting datanode, logging to /opt/hadoop-0.20.2-c原创 2013-07-19 15:11:38 · 5805 阅读 · 0 评论 -
Apache Hadoop 2.0.2-alpha
原文出处http://hadoop.apache.org/docs/r2.0.2-alpha/hadoop-yarn/hadoop-yarn-site/Federation.htmlHDFSF分为2层 namespace和block storageNamespace 由目录,文件和快组成 支持所有的namespace 文件相关的操作,例如增,转载 2013-11-15 16:10:56 · 1070 阅读 · 0 评论 -
hadoop的节点间的通信
一个DataNode上的Block是唯一的,多个DataNode可能有相同的Block。2)通信场景:(1)NameNode的映射表上不永久保存每个DataNode所对应的block信息,而是通过DataNode启动时的上报,来更新NameNode上的映射表(DataNode和Block)。(2)DataNode和NameNode建立连接后,会定期心跳检测更新信息,心跳的返回也包含Na原创 2013-11-15 16:05:57 · 3240 阅读 · 1 评论 -
hadoop上的C++程序开发
hadoop可以用C++开发,命令运行方式为pipes,例子:hadoop pipes -conf job_config.xml -input input/myfile.txt -output output -program bin/wordcount另外,还有一种streaming方式(?)运行java 程序,是打成jar包,使用hadoop jar命令,如果"hadoop jar 程序转载 2013-11-07 18:48:46 · 2072 阅读 · 0 评论 -
hadoop上C++开发两种方式的例子
百度在使用Hadoop过程中同样发现了Hadoop因为Java语言带来的低效问题,并对Hadoop进行扩展。而在此之前,百度也尝试了 Hadoop PIPES 和 Hadoop Streamming,但是发现这些问题:- 这两种方案都无法很好地控制Child JVM(Map TaskTracker和Reduce TaskTracker)内存的使用,这部分都由JVM自己控制,而你能做的就转载 2013-11-07 18:53:30 · 5918 阅读 · 0 评论 -
HADOOP中的CRC数据校验文件
Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。比如我们遇到的这个Case:执行的命令:hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25出转载 2013-11-12 13:58:13 · 5202 阅读 · 0 评论 -
倒排索引
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 用途 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这转载 2013-06-17 17:13:32 · 1107 阅读 · 0 评论 -
简单的hadoop配置(我安装的问题)
按实战hadoop上的讲解一步步操作,还是遇到不少问题,1. 伪分布模式的配置: java的环境变量,一般配置在conf/hadoop-env.sh中。我们为了统一方便,直接在/etc/profile中,直接加入相关的问题,在同事的blog都有介绍,我不赘述,参看:http://blog.youkuaiyun.com/shuhuai007/article/details/8298845原创 2013-01-11 16:27:41 · 939 阅读 · 1 评论 -
hbase操作(shell 命令,如建表,清空表,增删改查)以及 hbase表存储结构和原理
两篇讲的不错文章 http://www.cnblogs.com/nexiyi/p/hbase_shell.htmlhttp://blog.youkuaiyun.com/u010967382/article/details/37878701?utm_source=tuicool&utm_medium=referralhbase操做hbase web操作hbase shell 基本操作1建表具体命令原创 2015-09-09 16:11:38 · 67733 阅读 · 0 评论