
Hadoop笔记
文章平均质量分 83
ckl_soft
加油!
展开
-
ubuntu下hive-0.8.1配置
1、下载hive包wget http://labs.mop.com/apache-mirror/hive/stable/hive-0.8.1.tar.gz,并用tar -xzvf 将其解压到要安装的目录,我是放在/home/ckl/hadoop-0.20.2/hive2、vim ~/.bashrcexport HIVE_HOME=$HADOOP_HOME/hiveexport PA原创 2012-11-07 11:35:57 · 1279 阅读 · 0 评论 -
hadoop远程调试
转自:http://zhangjie.me/eclipse-debug-hadoop/我部署了一个Hadoop集群,但是在运行过程中总是会遇到各式的问题,虽然可以通过加一些Log来查看出错信息,但总是不太直观,并且也比较繁琐。因此最好能远程单步调试Hadoop。在Hadoop中,一般常用的模块有:JobTracker、NameNode、DataNode、TaskTracker、Jo转载 2013-05-16 15:16:33 · 1576 阅读 · 0 评论 -
Hadoop2.2.0分布式安装
确保ssh能无密码登录,jdk已安装,环境变量配置好(具体可参加相应教程)1、下载hadoop-2.2.0.tar.gz,解压tar -xzvf hadoop-2.2.0.tar.gz2、进入hadoop目录下创建tmp目录和dfs/data目录、dfs/name目录3、进入配置文件存放目录${HADOOP_HOME}/etc/hadoop3-1,修改hadoop-env.sh和原创 2013-12-09 19:26:59 · 1475 阅读 · 0 评论 -
prtobuf-2.5.0安装
Hadoop2.2.0中不再采用MRv1的RPC框架(舍弃了Writable和Comparable),采用谷歌的Protocol Buffers(简称PB),理由是为了向后兼容和效率更高。本文大致介绍下PB的安装:1、下载protobuf-2.5.0.tar.gz并解压,tar -xzvf protobuf-2.5.0.tar.gz2、编译并安装c++模块(确保已安装了g++)原创 2013-12-09 19:07:47 · 1352 阅读 · 0 评论 -
ProtoBufs简单样例
本工程列表如下:.├── classes├── com│ └── example│ └── tutorial│ ├── PersonProtos.java│ └── ProtocolBufferExample.java├── person.proto└── protobuf-java-2.5.0.jar原创 2014-02-07 22:23:54 · 1493 阅读 · 0 评论 -
javac hadoop2.2.0
#!/bin/bash #echo "$# $0 $1 $2" HH=$HADOOP_HOME/share/hadoopif [ $# -lt 1 ];then echo "usage: test.sh source.java [InputFile] [OutputFile]" exit 0elif [ ${1##*.} != "java" ];then e原创 2014-02-08 00:28:50 · 1362 阅读 · 0 评论 -
【转】组合式,迭代式,链式MR
1.迭代式mapreduce 一些复杂的任务难以用一次MapReduce处理完成,需要多次 MapReduce 才能完成任务,例如Pagrank,K-means算法都需要多次的迭代,关于 MapReduce 迭代在Mahout中运用较多。有兴趣的可以参考一下Mahout的源码。 在MapReduce的迭代思想,类似for循环,前一个 MapReduce转载 2014-05-03 20:08:01 · 970 阅读 · 0 评论 -
ssh完全无密码登录
通过ssh-keygen -t rsa生成的id_rsa.pub保存了到该节点的许可证,将其追加至authorized_keys即可实现无密码登录到本节点。为了实现所有机子间的无密码登录,一种可行方法是将所有机子的id_rsa.pub已追加的方式存放在同一个authorized_keys中,然后将此authorized_keys分发到各个节点即可。原创 2013-12-07 11:29:04 · 1244 阅读 · 0 评论 -
常用的JIRA
Spark:issue.apache.org/jira/browse/sparkYARN :https://issues.apache.org/jira/browse/YARNHDFS:https://issues.apache.org/jira/browse/HDFSMapReduce:https://issues.apache.org/jira/browse/MAPREDUCE原创 2014-06-30 15:05:52 · 1224 阅读 · 0 评论 -
HDFS源码笔记之FileSystem
FileSystem,顾名思义是一个实现了文件系统的抽象类,继承自org.apache.hadoop.conf.Configured,并实现了Closeable接口,可以适用于多种文件系统,如本地文件系统file://,ftp,hdfs等。如果要自己实现一个系统可以通过继承这个类(hadoop中DistributeFileSystem就是这样的),做相应的配置,并实现相应的抽象方法。原创 2012-11-27 00:06:38 · 7946 阅读 · 3 评论 -
Spark1.0 安装
1、下载Scala wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz tar xvzf scala-2.10.3.tgz -C /usr/local2、下载Spark wget http://www.apache.org/dist/incubator/spark/spark-0.9.0-inc原创 2014-05-10 22:03:23 · 1448 阅读 · 0 评论 -
Spark on YARN--WordCount、TopK
1、首先利用http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/搭建好的Eclipse(Scala)开发平台编写scala文件,内容如下:import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._object HdfsWordCount {原创 2014-05-11 23:37:46 · 3702 阅读 · 0 评论 -
hiveQL例子
【sql在三年前学过,现在差不多都忘了,学习hive顺便复习下sql语句】创建2个表stu(id int,name string,grade int,tid int),teacher(tid int,name string),并分别load data。1、创建一个view(学生的名字,对应的教师名字)【涉及到连接】create view stu_teacher as select st原创 2012-11-11 12:12:51 · 1219 阅读 · 0 评论 -
eclipse提示The import org.apache.hadoop.hbase cannot be resolved的解决方法
我首先查看了hadoop-0.20.2-core.jar,发现hadoop包下没有hbase,然后在hbase的install目录下发现了hbase-0.90.3.jar,使用jar -tvf hbase-0.90.3.jar查看得知里面有org.apache.hadoop.hbase,所以在eclipse中的hbase工程中右击-->properties-->java build path-->原创 2012-10-28 11:53:17 · 16728 阅读 · 1 评论 -
Zookeeper笔记
zk是一个高可用的文件系统,是一个具有高可用性的协调服务。zk中的路径必须是绝对地址。zk使用路径/zookeeper子树来保存管理信息,如配额信息。----------------------------------zonde是保存小数据的容器(如同文件),也可以作为保存其他znode的容器(功能如同目录)。两种类型的znode:持久(只能由客户端来删除)和短暂(原创 2015-11-07 21:37:03 · 3626 阅读 · 0 评论