- 博客(60)
- 资源 (4)
- 收藏
- 关注
转载 git命令
Git命令git配置(config):git version # 查看版本git config -l # 查看当前配置git config --global user.name "Dean"
2015-02-03 09:56:56
754
转载 Flume-ng 1.5部署,hadoop联合使用
Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例)目录: 一、什么是Flume? 1)flume的特点 2)flume的可靠性 3)flume的可恢复性 4)flume 的 一些核心概念 二、flume的官方网站在哪里? 三、在哪里下载? 四、如何安装?
2015-01-23 10:58:53
886
原创 mysql错误代码
1016错误:文件无法打开,使用后台修复或者使用phpmyadmin进行修复。1044错误:数据库用户权限不足,请联系空间商解决1045错误:数据库服务器/数据库用户名/数据库名/数据库密码错误,请联系空间商检查帐户。1054错误:程序文件跟数据库有冲突,请使用正确的程序文件上传上去覆盖。1146错误:数据表缺失,请恢复备份数据.看看你的数据库路径 端口 地址都对不对,是不
2014-11-30 20:35:23
813
原创 sql查找某个字段在某张表中
SELECT TABLE_SCHEMA AS 'DB_NAME',TABLE_NAME AS `表名` FROM information_schema.COLUMNS WHERE COLUMN_NAME='COLUMN_NAME'
2014-11-30 20:29:01
1758
原创 Map的输出进行LZO压缩
1、先到这里下载 http://www.oberhumer.com/opensource/lzo/ lzo的最新发布版2、配置 ./configure –enable-shared –prefix /usr/local/lzo-2.063、安装 make && sudo make install 4、按照传统所有的liblzo*往/usr/lib下拷一份接下来编译
2014-10-17 11:33:43
822
原创 编译hadoop2x插件
一直在用hadoop1.0.3的版本,最近测试上安装hadoop2.2.0版本,很想试用Eclipse集成hadoop2.2.0版本,发现原来在1.0.3的版本中的插件无法识别hadoop2.2.0的根目录,想想也是,2x的hadoop版本已经将目录彻底改变了,用的是yarn。在网上搜了一些方法,也没找到系统的教程,一下是自己弄的已经成功。最主要的是自带的那个release插件不好使...
2014-10-08 19:10:43
721
原创 org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container
今天在hadoop2.2.0版本上运行1.0.3的mr程序,起初以
2014-09-30 15:31:48
2919
原创 Linux命令
今天使用hadoop时发现查看本机ip时无法使用 提示没有该命令首先查看了Linux的版本号uname -a 查看内核版本接着查看Linux的版本lsb_release -a 发现时CentOS使用ifconfig时提示没有该命令 这时决定使用管理员权限su 和su - 都需要密码 艹 只能冒充管理员调用没有加密的命令 sbin/ifcon
2014-09-30 12:10:16
746
原创 MapReduce单元测试(MRUnit测试)
正常情况下编写的MapReduce程序需要上传到服务器才能检验器正确性,但是受限于环境的影响,测试MR程序变得非常困难,现在使用MRUnit Tutorial 让测试变得更加简单。ok,不再废话,直接上链接和代码:如果你使用maven管理项目,在你的pom.xml文件添加以下依赖项即可,这里区分Hadoop1和Hadoop2版本Using from Maven add depend
2014-09-30 11:14:58
1517
转载 Hadoop性能调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的
2014-09-29 09:54:44
695
转载 Hadoop Mapreduce原理
Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:采用M
2014-09-29 09:37:22
653
转载 HDFS体系结构
Hdfs体系结构:三个进程(namenode,datanode, secondary namenode) Hdfs(hadoopdistributed filesystem)是hadoop的核心子项目,是分布式存储,它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其通透性,虽然分布存在不同的datanode上面,但是感觉在一台电脑的本地进行操作)。Tips:
2014-09-29 09:34:31
551
转载 Hadoop自定义可序列化的类
在hadoop框架中实现自定义类可以被序列化。[java] view plaincopypackage com.rpc.nefu; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; impor
2014-09-29 09:31:57
1307
转载 HDFS文件操作
hdfs 文件操作,使用FileSystem里提供的方法实现。代码:[java] view plaincopypackage hdfs.fs.nefu; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.ap
2014-09-29 09:31:24
1063
转载 Hadoop单表与多表关联
在单表关联和多表关联的应用的时候,需要从数据里面挖掘出信息来进行操作。例子给出 孩子和父母的表 输出孩子和爷爷的表 数据如下:亲人表childparenttomjeremtomlucyjeremxdlucyhongtonjackjcterryjcjc
2014-09-29 09:30:38
820
转载 Ubuntu下搭建Hadoop2.2.0
目录(?)[+]一、准备工作:集群安装ubuntu12.04 64bit系统,配置各结点IP地址开启ssh服务,方便以后远程登录,命令sudo apt-get install openssh-server(无需重启)使用命令:ssh hadoop@192.168.0.125测试服务连接是否正常设置无密钥登录:修改主
2014-09-29 09:27:10
563
转载 Hadoop(四)组合式MapReduce任务
在实际的应用中,很多的复杂任务都是不止一趟的mapreduce任务,需要查分成多个简单的mapreduce子任务去完后。(1)迭代的计算任务。(2)顺序组合MapReduce作业(3)具有依赖关系的组合式mapreduce作业(4)mapreduce前处理和后处理步骤的链式执行迭代的计算任务:PageRank算法。顺序组合:多个map
2014-09-29 09:24:02
740
转载 Hadoop(三)自定义combiner和partitioner
Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理,为了减少map过程输出的中间结果键值对的数量,降低网络数据通信开销,用户也可以自定制combiner过程。自定制Partition过程:在mapreduce中,partition用于决定Map节点输出将被分到哪个R
2014-09-29 09:23:04
853
转载 Hadoop(二)自定义输出
Hadoop提供了较为丰富的数据输入输出格式,可以满足很多的设计实现,但是在某些时候需要自定义输入输出格式。数据的输入格式用于描述MapReduce作业的数据输入规范,MapReduce框架依靠数据输入格式完后输入规范检查(比如输入文件目录的检查),对数据文件进行输入分块(InputSpilt)以及提供从输入分快中将数据逐行的读出,并转换为Map过程的输入键值对等功能。Hadoop提供了很
2014-09-29 09:21:18
1591
转载 Hadoop(一)复合键
目录(?)[+]简介:在大数据处理的基本方法上,对于相互间计算的依赖性不大的数据,mapreduce采用分治的策略进行处理,将大的问题划分成小的问题进行求解,使得问题变得简单可行,同时在处理问题上面,MapReduce框架隐藏了很多的处理细节,将数据切分,任务调度,数据通信,容错,负载均衡.....交给了系统负责,对于很多问题,只需要采取框架的缺省值完成即可,用户只需完成设计m
2014-09-29 09:04:19
749
转载 Eclipse快捷键
Eclipse默认快捷键配置Ctrl+1快速修复Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针
2014-09-29 09:03:06
420
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人