
hadoop
好多鱼哦
数据挖掘、机器学习
展开
-
hadoop安装后测试运行
进入hadoop目录"cd ~/usr/local/hadoop"格式化 NameNode"./bin/hadoop namenode -format"启动所有节点"./sbin/start-all.sh"检查各进程是否运行 “jps”这时,应该看到有 6 个 java 虚拟机的进程,分别是 Jps, NameNode, SecondaryN原创 2016-06-25 01:20:59 · 370 阅读 · 0 评论 -
hadoop-2.7.2运行WordCount
初学hadoop的时候往往会被1.x和2.x搞晕,其实二者还是有些不同的。这里演示一下hadoop2.7.2版本的wordcount例子测试及运行流程。我的hadoop安装在/usr/local/hadoop目录,关键的配置在/usr/local/hadoop/etc/hadoop下的core-site.xml、hdfs-site.xml 、mapred-site.xml这三个文件,这里不说了原创 2016-06-26 00:49:40 · 2251 阅读 · 0 评论 -
MapReduce2.0
MapReduce2.0运行流程1、Client将应用程序提交给ResourceManager2、ResourceMananager申请资源并与Nodemanager通信3、Nodemanager收到请求启动MR AppMaster4、MR AppMaster(MapTask、ReduceTask)与ResourceManager通信并申请资源5、MR AppMaste原创 2016-07-11 00:39:45 · 336 阅读 · 0 评论 -
hadoop2.7.2详细完整配置
我的hadoop2.7安装目录/usr/local/hadoop配置文件在/usr/local/hadoop/etc/hadoop,几个重要的配置文件分别为:slavescore-site.xmlyarn-site.xmlmapred-site.xmlhdfs-site.xml以上配置完毕后,进入安装目录/usr/loca原创 2016-07-15 01:09:48 · 1290 阅读 · 0 评论 -
关于Hadoop2.7.2运行wordcount
1.每次机器重启后需要重新format否则namenode无法启动的问题,解决办法就是修改core-site.xml,在你的hadoop安装目录添加临时文件夹。 hadoop.tmp.dir /usr/local/hadoophome/hadoop_tmp2.新建HDFS输入文件夹input2。bin/hadoop fs -m原创 2016-07-15 17:24:29 · 953 阅读 · 0 评论 -
Mahout数据挖掘工具包
Mahout是Hadoop系统基于MapReduce开发的数据挖掘/机器学习库,实现了大部分常用的数据挖掘算法。Mahout提供的算法:Classification、Clustering、Dimension Reduction、Freq. Pattern Mining、Examples、Non-MR Algorithms、Recommenders、Regression、Evolution、Ve原创 2016-07-18 13:31:32 · 965 阅读 · 0 评论 -
YARN
产生背景:Mapreduce 1.0 固有问题JobTracker 负责作业调度,资源管理,向TaskTracker发送任务。TaskTracker 负责本届点资源管理,任务管理,向JobTracker发送本节点资源使用情况及运行状态。性能瓶颈+单点故障+单一框架---->YARN的产生,提高资源利用率。YARN基本架构(master-slave结构)R原创 2016-07-08 14:09:33 · 238 阅读 · 0 评论 -
MapReduce2.0
MapReduce特点:易于编程、良好扩展性、高容错性、PB级数据离线处理缺陷:实时计算、流式计算(静态)、DAG计算(依赖关系)实例:Wordcount 文件——分片——线程——哈希——汇总Input:一系列key/value对两个函数:map(k,v)->list(k1,v1), reduce(k1,list(v1))->v2Output:一系列(k2,v2)对原创 2016-07-09 17:19:53 · 300 阅读 · 0 评论