
hadoop
iteye_424
这个作者很懒,什么都没留下…
展开
-
Hadoop调试信息的输出办法
Hadoop 调试是比较麻烦的事情,考虑到只能通过reduce输出数据,我们可以把调试信息输出到reduce中,然后固定到某个文件中。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 我们可以把所有的调试数据都是用key=“Debug”,调试信息作...2008-12-17 11:37:00 · 220 阅读 · 0 评论 -
eclipse 单机测试 hadoop
装了cygwin之后,还是有错误: Caused by: javax.security.auth.login.LoginException: Login failed: bash: /usr/bin/groups: /bin/sh: bad interpreter: No such file or directory 修改办法:把cygwin下面的bash复制改名为sh...2009-04-03 12:49:00 · 105 阅读 · 0 评论 -
Hadoop分布式应用框架
(1)HDFS实现google的文件系统(2)并实现google的mapreduce系统。 作为Hadoop程序员,他要做的事情就是:1、定义Mapper,处理输入的Key-Value对,输出中间结果。2、定义Reducer,可选,对中间结果进行规约,输出最终结果。3、定义InputFormat 和OutputFormat,可选,InputFormat将每行输入文件的内容转换为Jav...2008-10-05 16:44:00 · 104 阅读 · 0 评论 -
超大矩阵乘法的并行计算?hadoop map-reduce矩阵乘法
hadoop ,行与行的乘法。 http://carbon.cudenver.edu/csprojects/CSC5809S01/Simd/parmult.html 一直很奇怪矩阵的乘法怎么在hadoop上面实现。看了上面的演示,才发现其实事情很简单。 矩阵M*N=A,受到习惯思维的影响,矩阵的一个元素Aij是M的一行与N的一列相乘。但是实际上可以转换为M的一列中的每一个数和N中每一行相乘,...原创 2009-12-31 12:55:39 · 308 阅读 · 0 评论 -
使用Hive 分析数据
当我们的数据量特别大的时候,我们可以用Hive统计数据。 Hive的好处是特别方便,编写程序的难度比较低。 输出文件作聚合的方法: [url]http://www.chinacloud.cn/show.aspx?id=3277&cid=12[/url] Map 端部分聚合: 并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Red...原创 2010-08-15 13:37:31 · 222 阅读 · 0 评论 -
编写hadoop程序的注意事项
eclipse下编译java程序,很多时候需要先把以前编译的class删除,否则链接的程序可能不对。 使用Junit程序可以非常方便的对java程序做单元测试。关键是每个函数都要测试一下。 复制代码,然后再修改代码很容易出错。因为老是忘记修改某些部分。 今天听王钰院士的报告。机器学习的基础是独立同分布。主要数据采样的方法和特征选择的方法。 机器学习和AI的关系。专家规则还是很重...2008-12-11 17:11:00 · 123 阅读 · 0 评论 -
Hive 教程
教程: http://wiki.apache.org/hadoop/Hive/LanguageManual/DDL http://www.tbdata.org/archives/499原创 2010-09-27 17:12:42 · 98 阅读 · 0 评论 -
安装hadoop
仔细看看怎么安装 hadoop,配置的选项: http://hadoop.apache.org/common/docs/current/cluster_setup.html#Configuring+the+Hadoop+Daemons http://hadoop.apache.org/common/docs/current/cluster_setup.html#Configuring+th...2010-04-18 23:52:41 · 114 阅读 · 0 评论