
大数据
文章平均质量分 80
青春张开
中国计算机学会会员
展开
-
hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是L原创 2014-05-14 21:01:34 · 1713 阅读 · 1 评论 -
hadoop学习;Streaming,aggregate;combiner
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出)通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得原创 2014-05-17 17:52:43 · 1801 阅读 · 0 评论 -
hadoop学习;block数据块;mapreduce实现例子;UnsupportedClassVersionError异常;关联项目源码
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子为了方便查看源码,关联导入源码的项目block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里block文件存储块是最基本的单位查看block存放位置,配置文件中查看如果文件大于64M会占两个块,meta文件是校验原创 2014-05-23 18:58:05 · 1533 阅读 · 1 评论 -
hadoop;RPC;调用接口;cmd的jps查看java进程;有main方法的类才能产生进程
RPC(remote procedure call)不同java进程间的对象方法调用,一方称作服务端,一方称作客户端;被调用的对象的方法执行发生在server端首先应该编写服务端MyServer,客户端MyClient,操作对象类MyBiz(根据服务端方法参数推测的),操作对象接口MyBizable(根据客户端方法参数推测的)通过查看源码,一步步向里查看,直到没有return该方法出现原创 2014-05-22 19:45:44 · 2189 阅读 · 0 评论 -
hadoop学习;hdfs操作;运行抛出权限异常: Permission denied;api查看源码方法;源码不停的向里循环;抽象类通过debug查找源码
package com.kane.hdfs;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils;public class Test {原创 2014-05-22 14:57:10 · 2443 阅读 · 1 评论 -
Hadoop学习;测试;启动bug;secondary合并edits到fsimage
一个Hadoop集群拥有多个并行的计算机,用以存储和Hadoop强调代码向数据迁移原创 2014-05-12 18:51:06 · 1391 阅读 · 2 评论 -
hadoop源码解读namenode高可靠:HA;web方式查看namenode下信息;dfs/data决定datanode存储位置
点击browserFilesystem,和命令查看结果一样当我们查看hadoop源码时,我们看到hdfs下的hdfs-default.xml文件信息我们查找${hadoop.tmp.dir}这是引用变量,肯定在其他文件有定义,在core-default.xml中查看到,这两个配置文件有个共同点:就是不要修改此文件,但可以复制信息到core-site.xml和hdfs-sit原创 2014-05-22 15:49:01 · 1812 阅读 · 0 评论 -
hadoop学习;hadoop伪分布搭建
先前已经做了准备工作安装jdk什么的接下来开始原创 2014-05-21 12:25:05 · 1107 阅读 · 1 评论 -
hadoop学习;大数据集在HDFS中存为单个文件;安装linux下eclipse出错解决;查看.class文件插件
一个典型的hadoop工作流会在别的地方原创 2014-05-13 18:18:29 · 1895 阅读 · 2 评论 -
hadoop学习;安装jdk,workstation虚拟机v2v迁移;虚拟机之间和跨物理机之间ping网络通信;virtualbox的centos中关闭防火墙和检查服务启动
hadoop分割与读取输入文件的方式原创 2014-05-16 15:35:19 · 1330 阅读 · 0 评论 -
hadoop学习;datajoin;chain签名;combine()
hadoop有种简化机制来管理job和control的非线性作业之间的依赖,job对象时mapreduce的表现形式。job对象的实例化可通过传递一个jobconf对象到作业的构造函数中来实现。x.addDeopendingJob(y)意味着x在y完成之前不会启动。鉴于job对象存储着配置和依赖信息,jobcontrol对象会负责监管作业的执行,通过addjob(),你可以为jobcont原创 2014-05-19 00:26:35 · 1574 阅读 · 0 评论 -
MapReduce实现排序功能
期间遇到了无法转value的值为int型,我采用try catch解决str2 2str1 1str3 3str1 4str4 7str2 5str3 9用的\t隔开,得到结果 str1 1,4 str2 2,5str3 3,9str4 7我这里map,reduce都是单独出来的类,用了自定义的keypackage com.kan原创 2014-05-29 12:15:06 · 2671 阅读 · 1 评论