
Hadoop
文章平均质量分 57
young_so_nice
这个作者很懒,什么都没留下…
展开
-
Hadoop之MapReduce的HelloWorld(七)
在一个文件中分两行写上: yaojiale hahaha yaojiale llllll 这个案列完成对单词的计数,重写map,与reduce方法,完成对mapreduce的理解。 一,在map阶段会将数据拆分成小段,存到一个个map中,如果有key相同的,会形成一个新的map,key还是这个,但是vlaues就是那两个相同的map的一个列表。用户自定义map方法用来完成自己的操作原创 2016-04-27 21:39:19 · 987 阅读 · 0 评论 -
Hadoop之倒排索引
倒排索引: 以前的是先找到文件位置—>找到文件—->找到单词 现在: 根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。 这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的 在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略 (如页面点击投票率)等来给你返回结果。这个过程中,倒排索引就起到很关键的作用将多个文本的单原创 2016-05-07 23:17:52 · 3509 阅读 · 0 评论 -
window下eclipse初次运行hadoop遇到的问题(五)
问题一:在windows下没有配置路径。 解决方法: 1,配置path: %HADOOP_HOME%\bin;%HADOOP_HOME%\sbin; 2,配置hadoophome: 注意:上面hadoop-2.6.4这是你解压的hadoop的安装包的bin目录的前一级。问原创 2016-04-23 00:18:46 · 931 阅读 · 0 评论 -
window下eclipse配制hadoop插件 (四)
1.把插件hadoop-eclipse-plugin-2.6.2.jar拷贝到eclipse安装目录下的plugins中 2.重启一下Eclipse 配制hadoop 3.进入map/reduce视图模式 4.向hadoop分布式存储系统中存入数据 5.连接hadoop 6.创建hadoop工程 7.创建类MyWordCount.javapackage co原创 2016-04-22 20:04:29 · 6103 阅读 · 0 评论 -
Hadoop之多行读取数据
一,需求: 在map执行前,即setInputFormatClass过程,会进行数据的读入,默认的是每次读入一行数据,进行计算。现在需要改成每次读入两行数据并且合并结果输出。二,思路及解决方法: 建议先看看他们的源码,理解思路。 我这里是采用的TextInputFormat.class的输入格式。它的key是每一行的偏移位置,value就是它这一行的内容。其中有创建LineRecordRead原创 2016-05-06 20:17:24 · 7728 阅读 · 0 评论 -
Hadoop常用的命令(三)
1,设置默认jdk: sudo update-alternatives –install /usr/bin/jps jps /mysoftware/jdk1.7.0_80/bin/jps 10002,启动hadoop: sbin/start-dfs.sh 3,启动yarn: sbin/start-yarn.sh4,hadoop fs -mkdir /tmp/inpu原创 2016-04-21 21:45:47 · 544 阅读 · 0 评论 -
Hadoop入门的五个进程的理解(二)
1,NameNode: 相当于一个领导者,负责调度 比如你需要存一个640m的文件 如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本) 分配到集群中的datanode上 并记录对于关系 。 当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。 它主要维护两个map 一个是文件到块的对应关系 一个是块到节点的对应关系原创 2016-04-21 19:09:17 · 2193 阅读 · 0 评论 -
Hadoop环境搭建安装(一)
一,准备环境: 1,64位ubuntu-14.04.4 2,jdk-7u80-linux-x64二,配置jdk: 1,输入命令语句: 2,写入配置信息: 3,使配置信息起作用: 4,jdk搭建成功: 三,hadoop的配置: 1,解压hadoop: hadoop@原创 2016-04-21 01:13:43 · 8247 阅读 · 2 评论 -
Hadoop自定义数据类型和输入格式
Hadoop自定义数据类型和输入格式一,自定义一个数据类型:User类 该类实现WritableComparable接口,并且带三个属性:name,sex,age 重写其write(),readFields(),compareTo()方法,分别对应 写出文件格式,读文件的格式,和比较该对象的值 设置其属性的get()与set()方法。原创 2016-05-03 19:47:47 · 3175 阅读 · 2 评论 -
Hadoop之自定义输入数据(一)
默认KeyValueTextInputFormat的数据输入是通过,空格来截取,区分key和value的值,这里我们通过自定义来实现通过 “,”来截取。 一,准备文件数据: 2,自定义MyFileInputFormat类: import java.io.IOException; import org.apache.hadoop.io.Text; import org.ap原创 2016-04-30 00:05:02 · 700 阅读 · 0 评论 -
Hadoop内置的数据输入\输出格式与RecordReader\RecordWriter(九)
理论和源代码分析:一,数据输入格式(InputFormat)用于描述MapReduce的作业 数据输入规范。MapReduce框架依靠数据输入格式完成输入 规范检查(比如输入文件的目录的检查),对数据文件进行输入分块(InputSplit),以及提供从输入分块中 将数据逐一读出,并转换为,Map过程的输入键值对等功能。最常用的数据输入格式:TextInputFormat和KeyValue原创 2016-04-29 21:08:24 · 3571 阅读 · 0 评论 -
Hadoop之仿写搜索引擎
这篇文章,可能比较长,如果你觉得写得好可以把它看完,希望对你有所帮助。 写搜索引擎先整理下思路大致分为三步: 从网上爬取数据,对拿到的数据进行整理即分词,然后通过关键字匹配拿到数据。我会详细介绍这三步。 先讲讲我要实现的效果,从网上拿到标题包括对应的地址,对标题进行分词,通过输入的关键字匹配分词,返回对应的网址。一,爬取数据: 开始的时候对网站进行的一个垂直爬取,拿到它的个标题,A标原创 2016-05-11 17:00:19 · 7959 阅读 · 0 评论 -
Hadoop之MapReduce改进的计数单词(八)
前面写的那个是老版本的写法,现在更新下,现代人的写法。 精简了许多代码,需要注意的是,在执行job时,要注意将 key和value的值进行下转换,否则map与reduce方法中的值 类型不对应就不能达到预期效果。 1,文件存放的路径与结果路径 2,文件的具体内容 3,参数路径 4具体结果 5,详细代码 import java.io.IO原创 2016-04-28 12:42:49 · 492 阅读 · 0 评论 -
Hadoop常用的API方法(六)
下面代码:封装了,实现创建目录,创建文件,增,删,改文件,获取节点,上传文件,下载文件,以流的方式上传视频import java.io.IOException;import java.io.InputStream;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Config原创 2016-04-23 22:04:25 · 1087 阅读 · 0 评论