
Hadoop
文章平均质量分 72
西电一枝花
坚持 努力..
展开
-
实验室环境下 hadoop集群配置
一、环境说明<br />实验室中多台机器都属于同一局域网,主机的操作系统多为windows系统,而hadoop要在linux环境下配置,因此我们选用了host(windows7)+Vmware(ubuntu)的方式进行了实验性的配置。<br />机器三台,分别做namenode(12G内存八核处理器 1TB硬盘)和两个datanode(4G内存双核处理器 1TB硬盘)。下面进入正式的配置过程。<br /> 二、虚拟机的安装及上网方式的选择<br />虚拟机上网方式,选择桥接。<br />虚拟机器上安装li原创 2011-05-11 20:09:00 · 2732 阅读 · 4 评论 -
hadoop API 写入HDFS简单注释
import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java原创 2011-08-18 11:14:42 · 1538 阅读 · 0 评论 -
hadoop SequenceFile 读取例程注释
import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;impor原创 2011-08-18 22:12:41 · 3852 阅读 · 0 评论 -
hadoop SequenceFile 写入例程注释
import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;im原创 2011-08-18 21:24:21 · 3515 阅读 · 2 评论 -
hadoop configuration print
import java.util.Map.Entry;import org.apache.hadoop.conf.*;import org.apache.hadoop.util.*;//包含run ToolRunner等等// vv ConfigurationPrin原创 2011-08-19 16:54:57 · 1736 阅读 · 1 评论 -
hadoop hdfs搭建 mapreduce环境搭建 wordcount程序简单注释
一 实验室环境下 hadoop集群配置一、环境说明实验室中多台机器都属于同一局域网,主机的操作系统多为windows系统,而hadoop要在linux环境下配置,因此我们选用了host(windows7)+Vmware(ubuntu)的方式进行了实验性的配置。机器三台原创 2011-08-22 18:15:32 · 10177 阅读 · 2 评论 -
java 文件系统 及HDFS系统读取目录下文件对比
首先 java实现import java.io.File;public class A { public static void recursion(String root){ File file = new File(root); File[] subFile原创 2011-09-21 21:18:45 · 2617 阅读 · 0 评论 -
Map/Reduce,a new start
Map/reduce 是一种处理海量数据的分布式模型,是在一种运行在专门为大规模数据处理组建的集群上程序框架,它的技术基础是大家所熟知的并行和分布式处理,现在在工业界和学术可以说有很大的影响,不容小视。什么是海量数据,为什么要用map/reduce这是最基本的问题。对于海量数原创 2011-09-28 23:07:18 · 1297 阅读 · 0 评论 -
关于hadoop循环获取路径以及获得分片的源代码
protected List listStatus(JobContext job ) throws IOException { List result = new ArrayList(); Path[] dirs = getInputPaths(job);//指向输入路径 if (dir原创 2011-11-03 10:28:47 · 1719 阅读 · 0 评论 -
hadoop 源码笔记
aprotected List listStatus(JobContext job ) throws IOException { List result = new ArrayList(); Path[] dirs = getInputPaths(job); if (dirs.lengt原创 2012-02-29 10:48:22 · 934 阅读 · 0 评论 -
并行计算与分布式计算的关系与区别1
1、概念理解物理处理器: 一个单核CPU,多核CPU的某个内核,都是一个物理处理器; 逻辑处理器: 通过超线程技术可以将一个物理处理器模拟成多个逻辑处理器, 超线程技术的目的是提高物理处理器的利用效率,开销是模拟的多个逻辑处理器在工作切换时,有不少的数据保存和恢复工作,因此实际处理性能的提升要弱于多核CPU的多个物理处理器;双核CPU的两个物理处理器,通转载 2012-03-26 09:50:08 · 2514 阅读 · 0 评论 -
Hadoop 文件系统笔记
import java.io.IOException;import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P原创 2012-06-27 11:33:23 · 1872 阅读 · 0 评论 -
Hadoop FileSystem API读取数据实例简单注释
import java.io.InputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;impo原创 2011-08-18 10:30:12 · 1446 阅读 · 0 评论 -
Dr. Codd's 对关系型数据库系统的十二条规则 (其实是13条)
什么是关系型数据库?什么叫关系型数据库? 关系型数据库是最为流行的数据存储模式它产生于一个名称为A Relational Model of Data for Large Shared Data Banks 的论文中SQL 进而发展为关系型的数据库对于关原创 2011-09-14 10:25:59 · 1675 阅读 · 0 评论 -
VM虚拟机下配Eclipse+JDK+Tomcat+Hadoop环境搭建
一、安装虚拟机VM一直next 注:卸载VM的时候最好用强力点的软件卸载,因为如果卸载(尤其是注册表)的不彻底的话很可能会导致下次没法安装。遇到这种情况手动删除注册表中关于VMware的信息。参考:http://zhidao.baidu.com/question/156744859.html?fr=qrl&cid=89&index=1 二、安装好VM后打开一个Cent原创 2011-06-18 11:00:00 · 5568 阅读 · 1 评论 -
map/reduce 框架
public void map(WritableComparable key, Writable values, OutputCollector output, Reporter reporter) throws IOException { }WritableComp原创 2011-07-24 18:36:59 · 783 阅读 · 1 评论 -
stl速成
前推迭代器<br />前推迭代器能够读写数据值,并能够向前推进到下一个值。但是没法递减。replace()算法显示了前推迭代器的使用方法。template <class ForwardIterator, class T>void replace (ForwardIterator原创 2010-11-22 22:18:00 · 690 阅读 · 0 评论 -
《hadoop权威指南》读书笔记 2011.7.28 morning 供自己参考记忆
map是怎样读取数据的许多方法是把each line as a recordreduce 多的时候要分区combiner 指定一个合并函数就可以了conf.setcombinerClass()HDFS以流式数据访问模式来存储超大文件namenode将文件系统的元数据(文件,目录原创 2011-07-28 11:30:50 · 899 阅读 · 0 评论 -
《hadoop 权威指南》 读书笔记
HDFS 对写入的数据计算校验和datanode 管线的最后一个datanode 负责验证校验和客户端在读取datanode的时候也会验证校验和Hadoop的LocalFilesystem执行客户端校验和验证LocalFileSystem通过ChecksumFil原创 2011-08-02 14:17:37 · 843 阅读 · 0 评论 -
hadoop学习随记 二
JobConf conf= JobBuilder.ParseInputAndOutput(this,getConf(),args);conf.SetInputFormat();conf.SetMapperClass(...class);.......for (In原创 2011-09-06 10:34:22 · 977 阅读 · 0 评论 -
《hadoop 权威指南》 读书笔记
HDFS 对写入的数据计算校验和datanode 管线的最后一个datanode 负责验证校验和客户端在读取datanode的时候也会验证校验和Hadoop的LocalFilesystem执行客户端校验和验证LocalFileSystem通过ChecksumFil原创 2011-08-10 15:55:50 · 574 阅读 · 0 评论 -
hadoop wordcount源代码分析
package org.apache.hadoop.examples; import java.io.IOException;import java.util.StringTokenizer; importorg.apache.hadoop.conf.Conf原创 2011-08-15 17:10:08 · 6509 阅读 · 6 评论 -
hadoop 常用命令
Configuration 是一个类 Hadoop中的组建的配置是通过Hadoop提供的API来进行的 一个Configuration代表配置属性及其取值的一个集合hadoop fs -copyFromLocal 本地 HDFS目的地hadoop fs -mkdir原创 2011-08-16 09:14:09 · 1020 阅读 · 0 评论 -
Mapreduce作业的工作原理
JobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后,runJob()将每秒轮询作业的进度,如果发现与上一个记录不同,便把报告显示到控制台。作业完成后,如果成功,就显示作业计数器。否则,导致作业失败的错误会被记录到原创 2011-08-16 10:26:55 · 1526 阅读 · 0 评论 -
hadoop 学习过程的随记
Configuration 是一个类 Hadoop中的组建的配置是通过Hadoop提供的API来进行的 一个Configuration代表配置属性及其取值的一个集合Configuration conf = new Configuration();conf.addResou原创 2011-09-06 10:33:40 · 1170 阅读 · 0 评论 -
Mapreduce的输入格式
map(k1,v1)——>list(k2,v2)reduce(k2,list(v2))->list(k3,v3)reduce的输入类型必须与map函数的输出类型相同combine的输入输出键值类型必须相同,也就是k2,v2static class Mapper extends Mapper{public void map(Object key, Text value原创 2012-07-26 20:28:32 · 4456 阅读 · 0 评论