
hadoop
文章平均质量分 87
fansy1990
这个作者很懒,什么都没留下…
展开
-
Eclipse调用hadoop2运行MR程序
hadoop:hadoop2.2 ,windows myeclipse环境;Eclipse调用hadoop运行MR程序其实就是普通的java程序可以提交MR任务到集群执行而已。在Hadoop1中,只需指定jt(jobtracker)和fs(namenode)即可,一般如下:Configuration conf = new Configuration();conf.set("mapred.job.原创 2014-04-03 22:03:27 · 24798 阅读 · 10 评论 -
Hadoop 自定义Writable NullPointerException
hadoop2.2 (测试环境,不过个人感觉1.X和2.X的自定义类型应该是一致的,没做过对比)自定义类部分代码如下所示:@Override public void write(DataOutput out) throws IOException { log.info("in write()*************************\nvalue:"+this.value+"\原创 2014-03-10 19:51:01 · 2504 阅读 · 0 评论 -
Hadoop put、copyFromLocal文件传输命令性能比较
hadoop1.0.3今天测试了下hadoop的shell命令中的put和copyFromLocal命令。在测试之前首先网上搜索了下,找到这篇文章:http://hakunamapdata.com/why-put-is-better-than-copyfromlocal-when-coping-files-to-hdfs/ ,上面说put is better than copyFromLocal,原创 2014-03-12 23:23:31 · 9789 阅读 · 1 评论 -
web工程调用hadoop集群1.2
本实例代码在lz的资源中有上传,有需要的可以参考(下载后的文件解压后有两个,一个直接导入myeclipse工程,另外的jar放在hadoop的lib下面,只需修改Utils中的ip即可运行该程序);这里主要讲下设计思路:首先进入页面后是一个frame框,上面是固定页面,下面是一个输入页面。输入页面输入要运行hadoop word count程序的输入和输出路径,然后提交路径到servlet原创 2013-09-05 02:17:41 · 5372 阅读 · 12 评论 -
Hadoop Writable深度复制及读取任意<key,value>序列文件
上次留了一个问题如何实现Writable的深度复制,上网找了下,还真有这个类,叫做WritableDeepCopier,可以在http://mvnrepository.com/artifact/org.apache.crunch/crunch/0.5.0-incubating 进行下载;下载导入,然后编程调用,但是如何调用?网上找了很多,但是都没有例子,哎,还是自己摸索吧,结果搞了一点时间还是不行原创 2013-09-07 11:10:50 · 3148 阅读 · 1 评论 -
Hadoop配置自动化之一ssh自动化
此篇博客参考:SSH无密码登录-多节点自动化部署SHELL篇。测试环境:ubuntu12.04.2 server 64bit 、expect version 5.45、GNU bash, version 4.2.24(1)-release (x86_64-pc-linux-gnu)说明:hadoop自动化配置出来的结果是:整个集群一个namenode、一个secondary、一个JobTr原创 2013-09-23 17:20:35 · 2894 阅读 · 1 评论 -
hadoop MultipleTextOutputFormat 解析mahout 中kmeans算法输出到不同文件
hadoop 1.0.4 ,mahout 0.5首先说明,本篇博客参考:http://blog.youkuaiyun.com/wypblog/article/details/17001131 。其次,这里的hadoop版本用处不是很大,虽然使用的是hadoop1.0.4的版本,但是用到的还是之前的JobConf,因为Job设置不了MultipleTextOutputFormat类。具体参考:http://原创 2013-12-24 18:47:08 · 2798 阅读 · 0 评论 -
hadoop多文件格式输入
版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number124,common number125,bad numberuser:zhangsan,123lisi,124w原创 2014-05-19 17:32:57 · 5428 阅读 · 3 评论 -
hadoop jar运行hbase相关jar包的classpath问题
版本:hadoop2.6,HBase1.0.1.1在使用HBase进行数据导入时(使用MapReduce的模式):hadoop jar $HBASE_HOME/lib/hbase-server-1.0.1.1.jar importtsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/user/root/hbase_tmp -Dimportts转载 2015-08-13 13:11:13 · 9679 阅读 · 0 评论 -
Spark jar not loaded. Offending class: javax/servlet/Servlet.class
部署Tomcat,运行java web程序调用Spark,执行Scala开发的Spark程序。并且提交任务到Yarn集群,使用yarn-client(或yarn-cluster)的模式,即Spark on YARN的模式。 部署过程以及遇到问题及解决方法原创 2015-09-16 17:01:13 · 3992 阅读 · 4 评论 -
No job jar file set. User classes may not be found. See Job or Job#setJar(String)
软件版本:hadoop2.2 ,eclipse4.5 ,jdk1.7问题描述:在进行Java程序调用Hadoop集群时,使用下面的代码时,运行会给出如题所示提示job.setJarByClass(SampleJob.class);可是明明是设置了JarByClass为什么提示没有设置呢?预备知识:1. java调用Hadoop的时候,直接配置Configuration即可直接调用hadoop,运行原创 2016-03-17 11:35:31 · 12189 阅读 · 0 评论 -
Java及Web程序调用hadoop2.6
1. hadoop集群:1.1 系统及硬件配置: hadoop版本:2.6 ;三台虚拟机:node101(192.168.0.101)、node102(192.168.0.102)、node103(192.168.0.103); 每台机器2G内存、1个CPU核; node101: NodeManager、 NameNode、ResourceManager、DataNode;原创 2015-01-11 01:11:42 · 6565 阅读 · 5 评论 -
Hadoop get JobId
软件版本:hadoop2.6.4 ; jdk1.7,eclipse:Myeclipse2014;问题描述:在进行MR任务提交的时候,想获取每次提交任务的jobId,这样在提交任务后,就可以根据此JobId来获取MR任务的进度了。解决方案:1. 之前想过的一种方式是:直接获取所有完成的JobID 列表,然后对其进行排序,取其最大的,接着使用最大的jobId来构造下一个jobId;但是这样会有问题,参原创 2016-05-30 10:48:36 · 9013 阅读 · 0 评论 -
HDFS文件管理系统
1. 软件版本 &部署:maven:3.3.9,jdk:1.7 ,Struts2:2.3.24.1,Hibernate:4.3.6,Spring:4.2.5,MySql:5.1.34,Junit:4,Myeclipse:2014;Hadoop2.6.4源码下载地址: https://github.com/fansy1990/ssh_v3/releases 项目部署:1) 修改src/main/re原创 2016-05-09 23:17:40 · 17596 阅读 · 9 评论 -
基于HBase的冠字号查询系统1--理论部分
1. 软件版本和部署maven:3.3.9,jdk:1.7 ,Struts2:2.3.24.1,hibernate:4.3.6,spring:4.2.5,MySQL:5.1.34,Junit:4,Myeclipse:2014;Hadoop2.6.4,HBase1.1.2源码下载:https://github.com/fansy1990/ssh_v3/releases部署参考:http://blog原创 2016-06-04 11:02:58 · 18033 阅读 · 1 评论 -
基于HBase的冠字号查询系统2--实现部分
1. 软件版本和部署maven:3.3.9,jdk:1.7 ,Struts2:2.3.24.1,hibernate:4.3.6,spring:4.2.5,MySQL:5.1.34,Junit:4,Myeclipse:2014;Hadoop2.6.4,HBase1.1.2源码下载:https://github.com/fansy1990/ssh_v3/releases部署参考:http://blog原创 2016-06-04 21:13:02 · 17218 阅读 · 0 评论 -
基于Spark ALS在线推荐系统
所用技术:Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK说明:本系统不涉及ssh相关内容,只有简单的Servlet和JSP、HTML页面,系统架构相对简单。系统部署:1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录;(spark-assembly-1.4原创 2016-08-23 14:18:46 · 17556 阅读 · 16 评论 -
hadoop 左连接
hadoop2.2场景描述:针对多个文件夹中的文件进行连接操作(单个文件夹内的文件格式相对统一),指定一个文件夹内的文件为主表(单个文件夹内的所有文件的主键唯一),所有在主表中的主键都要输出。实现思路:在map中读入所有的文件,然后输出主键(默认每个文件每行的\t前面的数据)作为key,其他值+该文件的父目录作为value进行输出,在reduce中根据传入进入的主表父目录来对所有key进行判断,如原创 2014-03-08 00:22:25 · 2642 阅读 · 0 评论 -
Hadoop解析序列文件并可视化输出
hadoop版本:1.0.4,jdk:1.7.0_25 64bit。在进行mahout算法分析的时候有时会遇到算法最后的输出文件是序列文件的情况下,这样就不能直接通过HDFS文件系统看到最终的结果了(乱码,因为是序列文件)。以前编写过一个可以直接把序列文件读入到一个map变量中的java文件,叫做ReadArbiKV ,可以在http://download.youkuaiyun.com/detail/fa原创 2013-10-25 16:19:02 · 3945 阅读 · 0 评论 -
Hadoop secondarynamenode两种配置方式
hadoop secondarynamenode的两种配置方式,hadoop版本是hadoop-1.0.4:集群分配关系:masterJobTracker&&Namenodenode1Secondarynamenodenode2TaskTracker&&Datanodenode3TaskTracker&&Datanodenode4TaskTracker&&Data原创 2013-05-29 17:09:58 · 6098 阅读 · 0 评论 -
Phoenix实战(hadoop2、hbase0.96)
版本:phoenix:2.2.2,可以下载源码(https://github.com/forcedotcom/phoenix/tree/port-0.96)自己编译,或者从这里下载(http://download.youkuaiyun.com/detail/fansy1990/7146479、http://download.youkuaiyun.com/detail/fansy1990/7146501)。hadoopp:原创 2014-04-04 16:49:00 · 8390 阅读 · 6 评论 -
hadoop2.2+mahout0.9实战
版本:hadoop2.2.0,mahout0.9。使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。首先说明下,如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下:java.lang.IncompatibleClassChangeError: Fou原创 2014-04-09 13:22:14 · 12493 阅读 · 21 评论 -
Kettle调用Hadoop Job Executor实践(spoon5.0.1+cdh5.0.0)
版本:Spoon:5.0.1 stableCDH:5.0.0Hadoop:2.3.0(CDH自带Hadoop)。一、调用Hadoop Job Executor前准备:1.下载shim包(可以到官网下载:http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version,或者下载这个:h原创 2014-05-05 20:57:46 · 5541 阅读 · 1 评论 -
Mahout算法中new Configuration问题
版本:hadoop2.4+mahout0.9在web程序中diaoyong原创 2014-06-13 11:42:58 · 2145 阅读 · 1 评论 -
Mahout算法调用展示平台2.1
软件版本:windows7: Tomcat7、JDK7、Spring4.0.2、Struts2.3、Hibernate4.3、myeclipse10.0、easyui;Linux(centos6.5):Hadoop2.4、Mahout1.0、JDK7;使用Web工程调用Mahout的相关算法,提供监控,查看任务的执行状态。自建Web项目,项目首页如下:1. 准备 项目可以在http://downl原创 2014-07-06 18:44:23 · 4767 阅读 · 3 评论 -
Mahout贝叶斯算法拓展篇3---分类无标签数据
代码测试环境:Hadoop2.4+Mahout1.0前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理。在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理。下面这篇博客就针对这样的数据进行处理。最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载:下载后参考原创 2014-07-20 14:31:35 · 4315 阅读 · 7 评论 -
Yarn运行simpleyarnapp
版本:hadoop2.2.0源码在https://github.com/hortonworks/simple-yarn-app这里可以下载。之前一直试验这个simpleyarnapp一直没有成功过,作为yarn的hello world应该没有那么难运行吧。几经排查,发现还是classpath路径的问题。首先,还是要按照http://blog.youkuaiyun.com/fansy1990/article/d原创 2014-04-10 13:54:50 · 5373 阅读 · 0 评论 -
Hadoop MapReduce链式实践--ChainReducer
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10A,11A,12A,13B,21B,31B,41B,51data2:A,20A,21A,22A,23B,201B,301B,401B,501最后输出为:A,23B,501假如这样的逻辑的m原创 2014-05-14 23:15:34 · 4121 阅读 · 1 评论 -
Hadoop大数据面试--Hadoop篇
本篇大部分内容参考网上,其中性能部分参考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/、http://www.idryman.org/blog/2014/03/05/hadoop-performance-tuning-best-practices/原理篇:1. Hadoop2.X的原创 2015-03-17 21:35:12 · 3574 阅读 · 0 评论 -
web工程调用Hadoop集群1---win7下java工程调用虚拟机Hadoop集群
需要注意的地方:(1)修改C:\Windows\System32\drivers\etc\hosts文件:在最后添加一行 192.168.128.138 hadoop ,(这个视具体情况而定);(2)hadoop集群的配置出了常规的,在hdfs-site.xml中添加一个property:dfs.permissionsfalse(3)编写的java文件要编译成.原创 2013-05-08 19:33:01 · 3591 阅读 · 0 评论 -
web工程调用hadoop集群2
上次使用java工程调用hadoop集群成功后,可以使用web工程来调用hadoop集群,web工程在下面页面下载:http://download.youkuaiyun.com/detail/fansy1990/5361645。今次的例子还是word count程序,实现的思路大概是:1、输入、出路径界面,供用户输入,如下:2、用户点击提交后,程序提交到一个jsp页面,取得参数,并采用Th原创 2013-05-12 19:39:30 · 4226 阅读 · 12 评论 -
Hadoop输入参数设置--AbstractJob简化
在hadoop中编写一个job一般都是采用下面的方式:Job job=new Job();job.setXxx();...这样感觉代码很多,而且参数还不好控制。比如,我想对输入的参数进行控制,还要自己写一些控制解析之类的代码,如下:if(args.length!=2){ System.err.out("Usage ")}而且上面只是大概的判断下,没有很精确的判断。有没有比较好原创 2013-09-10 14:30:09 · 3877 阅读 · 2 评论 -
云算法调用平台--web 工程调用hadoop集群1.3
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit,structs2;本篇介绍的是一个云算法调用平台,主要的作用是使用前台的参数配置,然后调用hadoop集群来跑mahout的算法程序。工程可以在lz资源页下载,工程下载后需要拷贝WEB-INF/lib/hadoop-fz1.3.jar到hadoop集群的lib下面。此版本只支持text2vector算原创 2013-11-17 01:11:03 · 5575 阅读 · 2 评论 -
云算法调用平台--web 工程调用hadoop集群1.4
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit,struts2本次版本更新如下:1)修改了整个目录结构:前台页面的三个模块分开文件夹,一个文件夹只包含一个功能块;前台发送请求给struts,struts调用action,action调用相应的service完成算法调用,service和action全部分开;2)前台调用界面增加了相关验证,同原创 2013-12-02 00:33:50 · 6982 阅读 · 2 评论 -
Hadoop Configuration设置自定义类变量
hadoop1.0.4有时在编写Hadoop的MR的时候,会想到如果在Configuration里面可以设置一个类变量多好呀。查看Configuration的api可以看到,一般set方法都是set一般数据类型,比如int,string或者double之类的。那有没有一个方法设置一个自定义类的变量呢,比如setClass,还真别说,还真有这个方法。查看api:setClasspub原创 2014-01-07 19:53:57 · 6034 阅读 · 2 评论 -
Hadoop secondarynamenode应用
本文参考:http://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454693.html,本文使用的是伪分布式的hadoop集群,版本为1.0.4,主要的配置文件如下:core-site.xml: hadoop.tmp.dir /home/hadoop/fs/tmp fs.default.name原创 2013-05-28 15:48:23 · 2042 阅读 · 0 评论 -
Tomcat Sqoop import异常及其解决方法
软件版本:Sqoop:1.4.6-cdh5.7.3,tomcat:7,JDK:1.7,Intellij Idea 2014 , Hadoop集群:CDH5.7.3;mysql:5.6;问题描述:在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候,如果直接使用Java程序,那么是可以调用程序并运行成功的;但是,启动Tomcat调用,则会失败。前备知识:1. 使用Java API操作S原创 2017-03-17 21:19:59 · 1842 阅读 · 0 评论