dicijia0467-优快云博客

转载学习MapReduce编程场景（一）

最近因为找工作的原因，都有两个周没有写博客了。今天来学习一个MapReduce编程场景。这是一个处理基站数据的场景。基站数据被抽象成两个文件，分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置，另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹，也就是用户到了哪些基站，分别停留了多久。有了这些数据，就可以勾勒出用户的移...

2015-03-15 15:39:00 249

转载 Storm集群的DRPC模式

storm的DRPC模式的作用是实现从远程调用storm集群的计算资源，而不需要连接到集群的某一个节点。OK。那么storm实现DRPC主要是使用LinearDRPCTopologyBuilder这个类。下面就先来看看一个简单的例子，它的源码的github上。import backtype.storm.Config;import backtype.storm.Loc...

2015-03-07 17:22:00 208

转载 HBase完全分布式安装以及Hive远程模式（mysql作为数据库）的安装

各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1，故也就省去了覆盖jar包的步骤以及排除了覆盖带来的不稳定性。OK，下载后解压，进入conf目录，配...

2015-03-05 12:06:00 179

转载 Data Collection with Apache Flume（三）

最后提及两个agent。首先第一个是使用一个avro souce和一个avro sink向另一个agent传递event，然后再写入特定目录。先看看配置代码。 agent6.sources = avrosource //定义avrosource，可以使用avro client在网络上向其传送数据agent6.sinks = avrosinka...

2015-03-02 10:51:00 121

转载 Data Collection with Apache Flume（二）

今天继续讨论几个agent的配置。第一个agent是从终端捕获特定命令执行的输出结果，并将文件输出到特定目录。先看一下配置的代码： agent2.sources = execsource //指定为从命令获取输出的sourceagent2.sinks = filesink //输出到文件的sinkagent...

2015-03-01 12:38:00 110

转载 Data Collection with Apache Flume（一）

首先介绍一下Flume是个神马东东。Flume可以实现从多种数据源获取数据，然后传递到不同的目标路径。通常是利用Flume传送logs到不同的地方，例如从web server收集logs文件然后传送到hadoop cluster进行分析之类的。Flume配置灵活简单，可以实现不同情况的日志传送，确实是一款不错的工具。 OK，接下来先看看怎么安装配置Flume。大...

2015-02-28 12:23:00 116

转载 storm的八种Grouping策略

在这里，将会提到storm的七种grouping策略，并且编码逐一实现。首先，需要一个集群（希望尽量模仿真实环境，故就不用本地模式了）。详细的安装方法大家可以查看本人的另外一篇博文：storm集群和zookeeper集群的部署过程。 OK。现在有三个节点。一个作为nimbus，两个作为supervisor。到这里先介绍一下storm逻辑上有两个...

2015-02-24 22:34:00 316

转载那么NN、DN、JT、TT的问题来了。。。。

首先，今天是羊年初一。祝看到这篇博文的朋友们新春快乐！身体健康！心想事成！万事胜意！言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程，同时MR有JobTracker和TaskTracker两种节点进程。（当然这是基于hadoop 1.x版...

2015-02-19 16:11:00 403

转载学习的一个MapReduce程序（《beginner`s guide》中的例子）

第一个MR程序是实现关系型数据库中经常都会遇到的表连接操作，也就是join。这里是连接sales和accounts表，通过共同的ID列进行连接。同时统计出总的购买件数以及总的消费额。下面是两个示例数据，一个是sales.txt,另一个是accounts.txt。首先是sales.txt：001 35.99 2012-03-15002 12.49 ...

2015-02-15 22:28:00 110

转载安装sqoop，并将Mysql中的表数据导出到HDFS下的文本文件

首先是安装mysql数据库。使用 sudo apt-get install mysql-server命令即可安装完成。然后进行表的创建和插入数据。如图。然后下载sqoop和连接mysql数据库的jar包。接下来是安装sqoop。首先是配置sqoop-env.sh文件。如图。然后将config-sqoop文件中不需要检查的注释掉。如图。然后接下来是将sqoop-1....

2015-02-13 19:46:00 203

转载 hbase伪分布式安装

首先下载与hadoop-1.1.2对应的HBase版本，这里下载的是HBase0.96.2.如图。这个版本已经包含了hadoop-core-1.1.2.jar包，即不用做覆盖核心jar包的一步。然后对hbase进行配置。具体有hbase-env.sh以及hbase-site.xml如图。接下来即可启动hadoop和hbase，如图。然后是正式启动hba...

2015-02-12 11:36:00 89

转载按照《权威指南》的例子求最低温度并且修改默认调度器为FairScheduler

首先我只是下载了2003年的数据，因为网络较慢……然后把数据整合到test.txt中，upload到hdfs文件系统中。如图。已有一个test.txt。数据准备好之后，开始搞代码。代码如图。然后把它们打包成一个jar包，运行。结果求得2003年的最低温度是-807。如图。搞掂！！接下来是实现hadoop的公平调度器。首先不做任何修改，直...

2015-02-10 11:11:00 146

转载利用hadoop1.x集群进行探索性实验（四）~（五）【重复格式化NN后，DN不能启动】【控制namenode检查点发生的频率】...

多次重复格式化namenode后，datanode不能启动，重新将datanode加入集群。解决办法是用namenode的version文件中的namespaceID替换掉datanode的namespaceID，使到两个的namespaceID一致，就能重新加入datanode。如图。（namespaceID的替换过程和实验二的一样。）控制namenode检查点发生的频率。...

2015-02-08 21:44:00 116

转载利用hadoop1.x集群进行探索性实验（三）【修改HDFS块大小】

首先看一下当前块大小。如图，使用命令hadoop fs -stat "%o" /目录/文件由于hadoop是按照块来存储文件的，故不管文件是否有一个块大小的容量也会占用一个块。关闭集群，进入hdfs-site.xml，添加属性dfs.block.size.如图。改成128MB。重启集群，查看块大小。这里打开web页面的时候需要等HDFS安全模式自动退出后才能打开file...

2015-02-08 20:22:00 113

转载利用hadoop1.x集群进行探索性实验（二）【模拟namenode崩溃，通过secondary namenode恢复namenode】...

启动集群之后，删除name目录，模拟集群namenode节点崩溃。再次启动发现namenode启动不了。如图。做法是：关闭集群，然后重新格式化HDFS以再次产生name目录。进入data目录中，打开datanode的version文件，将datanode的namespaceID复制，然后覆盖掉name目录中version文件的namespaceID。这是帮助namenode找回d...

2015-02-07 22:23:00 126

转载利用hadoop1.x集群进行探索性实验（一）【对WEB监控界面增加安全机制】

这个实验我选择了简单的做法，并没有用到kerkeros。本人会努力，尽快学会用到kerkeros给hadoop增加安全机制，使我的小象不再“裸奔”。首先是打开hdfs-site.xml，然后加入如下属性。最后设置登录用户名。就是在设置hadoop.http.authentication.signature.sercet.file属性时指定的目录文件，在文件中写入用于登录的用户名。我这...

2015-02-06 23:38:00 115

转载本地编译64位hadoop并进行部署。

我是接着用上次已经部署好的环境，故已经有ssh以及java。没有安装这两个的朋友可以看本人关于伪分布式安装的博文。首先是输入命令sudo apt-get install g++ autoconf automake libtool make cmake zlib1g-dev pkg-config libssl-dev，安装完这些准备工具后，下载protobuf-2.5.0.tar.gz...

2015-02-05 23:07:00 143

转载 hadoop完全分布式安装

1、安装环境是vmware workstation10.0模拟出三个虚拟节点，每一个节点安装Ubuntu12.04 LTS操作系统，主机名分别是hadoop1、hadoop2以及hadoop3.同时在每一个节点安装好java。安装方法同之前介绍的伪分布式安装方法一样。2、接着是对三个节点的hosts文件进行配置，先用ifconfig命令查看三个节点的ip地址，然后用sudo vim ...

2015-02-04 22:41:00 125

转载 win7+Ubuntu双系统安装以及hadoop伪分布式安装

首先安装双系统进行伪分布式实验，安装win7+ubuntu双系统：1、右键单击“我的电脑”进入“管理”，双击“存储”，再双击“磁盘管理”，在D盘位置右击“压缩卷”，分出一个大小为50G的磁盘空间，然后格式化，之后再删除卷，作为安装ubuntu系统所用。2、下载安装easyBCD软件，新建一个Neo Grub启动，然后在点击设置，添加一下语句：title install ubu...

2015-02-02 21:47:00 170

转载 storm集群和zookeeper集群的部署过程

本次实验的环境为VM station 10 安装三个虚拟机，系统为centOS6.5。IP分别如下图。如下图，三个虚拟机均安装了Java1.7以及配置好了hosts文件。接着是下载zookeeper-3.4.6（这里推荐使用此版本），进入conf目录下，将zoo_sample.cfg复制成zoo.cfg，然后修改zoo.cfg里面的参数配置。详细如下截图。同时，在...

2015-02-02 19:26:00 164

dicijia0467的博客