
Old Hadoop
liuyuan185442111
主要为了增强记忆和方便查询,评论如果没有及时回复,还请见谅
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用Fluentd实现收集日志到HDFS(下)
本篇主要包含Fluentd的配置文件格式,in_tail输入插件,out_webhdfs输出插件Fluentd的配置文件主要包含以下字段: 1. source,决定数据来源 2. match,决定输出目的地 3. filter,在输入与输出之间,用来过滤 4. system,用来进行系统设置 from:http://docs.fluentd.org/articles/config-原创 2015-07-27 23:22:47 · 3394 阅读 · 0 评论 -
如何让 Tomcat 访问 HBase
让Tomcat启动时加载所有hbase的jar包,避免出现NoClassDefFoundError错误 编辑${catalina.home}/conf目录下的catalina.properties 修改common.loader项 原: common.loader=${catalina.base}/lib,${catalina.base}/lib/*.jar,${catalina.home}原创 2015-12-20 17:30:36 · 1834 阅读 · 1 评论 -
yarn的组件和启动job的流程
随着集群规模和负载的增加,JobTracker在内存消耗,线程模型,扩展性,可靠性方面暴露出了缺点,为此需要对它进行大整修。 MRv2最基本的设计思想是将JobTracker的两个主要功能,即资源管理和作业调度/监控分成两个独立的部分。在该解决方案中包含两个组件:全局的Resource Manager(RM)和与每个应用相关的Application Master(AM)。这里的“应用”指一个单独作原创 2015-06-23 15:43:00 · 2919 阅读 · 0 评论 -
如何用MapReduce程序操作hbase
先看一个标准的hbase作为数据读取源和输出目标的样例:Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.class);Scan scan = new Scan();TableMapReduceUtil.initTableMa原创 2015-04-27 09:36:19 · 4112 阅读 · 0 评论 -
HBase的三种操作方式
在《Hadoop 2.2.0和HBase 0.98.11伪分布式》中已经安装好了伪分布式的HBase,而且可以启动起来了。执行hbase shell命令进入shell,出现SLF4J: Class path contains multiple SLF4J bindings.错误,将其中一个SLF4J删掉即可: mv apple/hbase/lib/slf4j-log4j12-1.6.4.jar a原创 2015-04-24 18:09:44 · 6795 阅读 · 0 评论 -
Hadoop 2.2.0和HBase 0.98.11伪分布式
安装和整合Hadoop 2.2.0和HBase 0.98.11伪分布式原创 2015-04-21 16:22:57 · 1363 阅读 · 0 评论 -
Hadoop之自定义Partitioner函数
在我的《Hadoop之wordcount源码分析和MapReduce流程分析》一文中,详细说明了MapReduce中的数据流向。wordcount的例子中,只有一个Reduce Task。Hadoop的默认配置是只有1个Reduce Task来处理Map的输出的,但很多时候,我们需要多个Reduce Task。原创 2015-01-24 20:59:41 · 1444 阅读 · 0 评论 -
Hadoop之表的关联
实例来自于《Hadoop实战》5.4和5.5节,也见于《Hadoop集群(第9期)_MapReduce初级案例》。第一个实例是单表关联,给出child-parent表,要求输出grandchild-grandparent表。在关系数据库里这是一个连接操作,用MapReduce来处理我觉得效率变低了,但可以处理海量的数据。我对其进行了些许改进。简要描述如下。map输入的每行数据,拆分为两条数据,比如A B,变成A <B和B >A两条,前者表示A是B的child,后者表示B是A的parent;redu原创 2015-01-26 21:09:31 · 703 阅读 · 0 评论 -
Hadoop之wordcount源码分析和MapReduce流程分析
分析wordcount的源代码,研究MapReduce的运行过程和数据流向。原创 2015-01-20 12:31:43 · 995 阅读 · 0 评论 -
在Windows下用eclipse写MapReduce程序
DFS Location我想使用hadoop-eclipse插件来处理DFS和写MR,于是今天就配置了一下。 基本上是按照“文献1”进行的,但是出现了这种问题(图是从别处扒来的,当时没截图): 如果将Host设为一个不存在的地址,或者将端口改成一个其他的,会在稍长一段时间才提示不能连接,而现在的情况是在很快的时间里就提示了这个无法连接的消息。基本可以判断,是服务器拒绝服务了。根据“文献2”的提示原创 2015-05-12 18:58:41 · 2188 阅读 · 0 评论 -
MapReduce流程详解
首先对输入文件执行分片操作,默认每个split的大小是64M,每一个split对应一个Map任务;对每个split执行map,输出结果会临时存储在硬盘上;等所有的Map任务都执行完毕(或执行完毕的Map任务达到一个比例,可以修改),每个Reducer会从各个Mappers上拉取属于自己的数据;然后对这些数据执行reduce,原创 2015-06-19 17:39:12 · 1113 阅读 · 0 评论 -
用Fluentd实现收集日志到HDFS(上)
Fluentd是一个实时日志收集系统,可以同时从多台server上收集大量日志,也可以构建具有层次的日志收集系统。很好很强大。 系统环境:CentOS 6.5 集群环境:Hadoop 2.2.0 参考Fluentd官网。安装fluentdtd-agent是fluentd的一个稳定版本。 centos下可以直接运行以下命令安装:curl -L https://td-toolbelt.herok原创 2015-07-26 17:16:38 · 3725 阅读 · 0 评论 -
Hadoop的序列化和数据类型
接口serialization,结构化对象转化为字节流 deserialization,字节流转化为结构化对象 序列化在分布式数据处理的两大领域经常出现:进程间通信和永久存储。 Hadoop使用自己的序列化格式Writable,它格式紧凑,速度快,但很难用Java以外的语言进行扩展和使用。在Hadoop中所有的key/value类型必须实现Writable接口,它有两个方法,分别用于读(反序列原创 2015-05-27 19:02:35 · 1773 阅读 · 0 评论 -
HDFS的Java API
hdfs文件读取流程client调用FileSystem.open()方法 FileSystem通过RPC与NN通信,NN返回该文件的部分或全部block列表(含有block拷贝的DN地址)选取距离客户端最近的DN建立连接,读取block,返回FSDataInputStreamclient调用输入流的read()方法 当读取到block结尾时,FSDataInputStream关闭与当前D原创 2015-05-27 14:16:21 · 497 阅读 · 0 评论 -
Hadoop 1.2.1分布式集群搭建
如何从头搭建一个Hadoop集群。原创 2015-02-10 16:40:43 · 1401 阅读 · 0 评论 -
Ganglia集群监控
介绍Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于监控数以千计的节点。Ganglia主要是用来监控系统性能,如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。Ganglia的核心包含gmond、gmetad以及一个Web前端。 gmond(Ganglia Monito原创 2015-11-27 14:43:52 · 3770 阅读 · 0 评论 -
Item-Based Recommendations with Hadoop
Mahout在MapReduce上实现了Item-Based Collaborative Filtering,这里我尝试运行一下。 1. 安装Hadoop 2. 从下载Mahout并解压 3. 准备数据 下载1 Million MovieLens Dataset,解压得到ratings.dat,用sed 's/::\([0-9]\{1,\}\)::\([0-9]\{1\}\)::[0-9]\原创 2023-09-11 21:59:07 · 1230 阅读 · 1 评论 -
通过Bulk Load导入HBase海量数据
如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源,一个比较高效便捷的方法就是使用“Bulk Load”方法,即HBase提供的HFileOutputFormat类。 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种格式文件,然后上传至合适位置,即完成巨量数据快速入库。配合mapreduce完成,高效便捷,而且不占用region资源。原创 2015-07-16 19:27:19 · 1932 阅读 · 0 评论 -
对HBase数据库的操纵(MapReduce)
操纵HBase数据库有如下几种方式:其一是使用hbase shell,其二是使用Java API,其三是通过MapReduce。另外HBase还提供了Avro,REST和Thrift接口,不过一般用的较少。 在《HBase操作》和[《如何用MapReduce程序操作》]hbase(http://blog.youkuaiyun.com/liuyuan185442111/article/details/45306原创 2015-07-13 23:28:54 · 731 阅读 · 0 评论 -
Hadoop之运行wordcount
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World"。原创 2015-01-19 17:59:47 · 712 阅读 · 0 评论