
hadoop
文章平均质量分 78
iteye_8889
这个作者很懒,什么都没留下…
展开
-
hadoop常见配置含义备忘录
列了很多配置的参数 其中红色的配置为必须配置参数 参数 取值 备注 fs.default.nameNameNode的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制...原创 2009-12-21 23:13:55 · 157 阅读 · 0 评论 -
Hadoop读书笔记----(一)概览+访问HDFS
概览: ==================================== 邪恶的分割线 =======================访问HDFS一,通过JAVA的URL类直接访问HDFSA,输入命令 bin/hadoop namenode -formatB,输入命令 bin/start-all.sh 启动单机模式(前提是都配置好的情况...原创 2010-01-03 22:27:33 · 107 阅读 · 0 评论 -
Hadoop读书笔记----(二)写文件
hadoop写文件: 流程:修正:跟了源代码,发现往HDFS里创建文件的源代码: public FSDataOutputStream create(Path f, Progressable progress) throws IOException { return create(f, true, getConf().getIn...2010-01-06 20:41:03 · 114 阅读 · 0 评论 -
Hadoop读书笔记----(三)压缩与解压缩
压缩是否支持多文件和分割:hadoop默认用压缩算法的本地实现===============================邪恶的分割线======================= 压缩是否有本地实现:hadoop的mapReduce算方法需要Splittable的压缩算法支持。如何选择压缩算法:举例:大型的日志文件存储1,不要压缩存储2,选择z...原创 2010-01-07 22:36:06 · 209 阅读 · 0 评论 -
Hadoop读书笔记----(四)序列化
Hadoop 分布式计算,序列化是Hadoop通过RPC调用,使得每个节点之间有效沟通的方法。于是序列化就成为了分布式计算的一个重要课题。序列化之后,对于分布式计算还需要排序。因此排序也相当重要:Hadoop要求对象在序列化之后的字节也能够支持排序,以提高计算速度,还不必产生很多无谓的数据。 下面两张图记录了JAVA原生类型转化成序列化以后所占的字节数 ...原创 2010-01-09 11:26:23 · 99 阅读 · 0 评论 -
Hadoop 源码下载,编译,install,导入eclipse
1,准备好环境 首现操作系统最好还是LINUX,WINDOWS上搞起来太麻烦JDK1.5必须的,最好JDK1.6也准备好。以备版本升级的时候需要用svn 1.5版本的或者以上的eclipse http://www.eclipse.org/ 上下载 ||| eclipse的svn插件 ant http://ant.apache.org/ 下载 ivy...2010-02-08 23:01:36 · 89 阅读 · 0 评论 -
Hadoop读书笔记----(五)气象站分析演示代码
一,背景气象站分析一批复杂的数据,演示需要分析的数据0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999存放在input.txt中。其中包含了年份 和 温度数据需要把这个年份和温度数据提取出来 二,具体执行1,...原创 2010-03-04 21:54:06 · 195 阅读 · 0 评论