
Hadoop
文章平均质量分 75
weiweiyixiaocsdn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop传递参数的方法总结
写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几种。最直接的方式就是使用Configuration的各种set方法,对于基本数据类型都有很好的支持,比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数?话说所有的对象都是由基本类型构建的,所以我们可以覆盖这个对象的toStri转载 2015-03-28 12:51:09 · 432 阅读 · 0 评论 -
使用MapReduce查找数据库表的重复数据
在一张很大的数据库表中,这张表有6个字段,要求查找出具有指定的三个字段相同的记录,并且这些记录的总和要大于等于3,如果使用SQL语句的话,就很慢,至少我使用了30多分钟,而且还没有写好SQL语句,现在我使用了MapReducer进行编程,大致思路如下: 1 在Map阶段,对要求的 三个字段合并,使用复合键值对,让map端自带的排序功能排序; 2 使用combiner原创 2015-03-29 17:49:40 · 1392 阅读 · 0 评论 -
hadoop文件损坏解决办法
今天把集群重新扩容了一下,把之前的两台电脑重新装了系统,结果启动hadoop发现报错了问题原因:在hdfs-site中配置的副本书为1,而且把两台机子的文件给清理了,导致一部分数据丢失,而且无法恢复,报错导致hbase无法访问60010端口解决办法:使用 hadoop fsck / 列出损坏文件,损坏的文件无法恢复,只能删除损坏的文件 hadoop fsck -delete原创 2015-04-11 13:49:10 · 1795 阅读 · 0 评论 -
hadoop在ubuntu14.04中完全分布式安装步骤
这篇博客参考了这篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html,主要是想提醒在ubutnu上安装hadoop的朋友们,这里有一些问题需要改进,在参考http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html的基础上在参考我的文章,相信安装hado原创 2015-04-11 10:58:38 · 1199 阅读 · 0 评论 -
Hadoop学习资料
很好的链接:过往记忆 http://www.iteblog.com/archives/928原创 2015-04-12 20:14:16 · 429 阅读 · 0 评论 -
Hadoop集群上安装mahout
mahout安装与配置: 安装环境:需要安装Hadoop集群, 建议下载安装mahout0.8,下载版本mahout-distribution-0.8.tar.gz ,下载链接:http://archive.apache.org/dist/mahout/ 安装: 1 解压mahout, sudo tar -zxvf /op原创 2015-04-12 17:27:28 · 1143 阅读 · 0 评论 -
hive通过jdbc创建表,分区,桶
首先我们需要打开hiveserver服务:hive --service hiveserver然后我们和操作普通数据库一样,先加载驱动,然后建立连接,接着创建一个statement,然后执行查询,然会结果集。代码如下(一定要写对sql语句,要仔细,下面的需要注意的地方我已经标示出来了:)package playHive;import java.sql.Connection;import原创 2015-05-10 16:52:55 · 3716 阅读 · 0 评论 -
hadoop 多数据源连接之DataJoin
一个MapReduce任务很可能访问和处理两个甚至多个数据集,在关系型数据库中,这将是两个或者多个表的连接,但是Hadoop系统没有关系型数据库中那样强大的连接处理功能,因此处理复杂一些。一般来讲,hadoop可以采用这几种数据连接方式: 1采用DataJoin类库实现Reduce端连接的方法 2 用全局文件复制实现Map端连接方法 3 带Ma原创 2015-05-03 10:57:29 · 1334 阅读 · 0 评论 -
pagerank算法的MapReduce实现
pagerank是一种不容易被欺骗的计算Web网页重要性的工具,pagerank是一个函数,它对Web中(或者至少是抓取并发现其中连接关系的一部分web网页)的每个网页赋予一个实数值。他的意图在于,网页 的pagerank越高,那么它就越重要。并不存在一个固定的pagerank分配算法。对于pagerank算法的推到我在这里不想做过多的解释,有兴趣的可以自己查看资料看看,这里我直接给出某个网页原创 2015-05-18 18:35:27 · 2324 阅读 · 1 评论