
Chukwa
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
Chukwa 在hdfs上的存储结构
OverviewThis document describes how Chukwa data is stored in HDFS and the processes that act on it.HDFS File System StructureThe general layout of the Chukwa filesystem is as follows.转载 2014-03-12 17:33:12 · 783 阅读 · 0 评论 -
基于Hadoo的日志收集框架---Chukwa的源码分析(数据处理)
refer to :http://savagegarden.iteye.com/blog/14418421.工具类、接口简介(1)Java代码 // 用于对数据进行分类 org.apache.hadoop.chukwa.extraction.demux.DemuxManager // mapreduce程序的转载 2014-04-11 21:17:50 · 511 阅读 · 0 评论 -
chukwa 简单的应用数据流
1. 经过chukwa自带的data-process每5分钟生成(基本的数据合并以及去重(基础设施))repos/[clusterName]/[dataType]/[yyyyMMdd]/[HH]/[mm]/[dataType]_[yyyyMMdd]_[mm].[N].evt2. 利用HourlyChukwaRecordRolling每隔一个小时将上一步生成的文件合并成一原创 2014-03-21 17:32:10 · 672 阅读 · 0 评论 -
Chukwa_Processes_and_Data_Flow
ContentsOverviewHDFS File System StructureRaw Log Collection and Aggregation WorkflowLog Directories Requiring CleanupOverviewThis document describes how Chukwa data is stored in HDF转载 2014-03-12 21:57:07 · 633 阅读 · 0 评论 -
浅谈 chukwa 在数据收集处理方面的应用
Chukwa 简介什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。Chukwa 应用场景介绍 为了更加简单直观的展示 Chukwa,我们先来看一个假设的场景。假设我们有一个规模转载 2014-03-19 15:39:49 · 1163 阅读 · 0 评论 -
关于chukwa的一些疑问
1.如果使用监听文件夹 add DirTailingAdaptor /opt/logs/ filetailer.CharFileTailingAdaptorUTF8 0这时候agent 只会对新创建的文件创建相应的FileTailingAdaptor,如果是使用命令mv到Logs下的文件则不会。这是什么原因呢?需要查看一下源码。原创 2014-04-14 16:02:08 · 731 阅读 · 0 评论 -
hadoop-cdh3u0 安装 chukwa-0.4
安装配置过程可以参考:http://hi.baidu.com/zhangxinandala/item/db5d8adc22bab0d5241f4017下面记录一下安装过程中遇到的问题:1. collector的默认端口是8080 ,但是这个会被别的占用,所以换成了9090(在启动日志里看到了jetty不知道是不是和这个有关,还是我系统里别的程序占用了)2. 一个问题就是chukwa0.原创 2014-03-13 21:39:38 · 555 阅读 · 0 评论 -
Introduction to Chukwa
Chukwa aims to provide a flexible and powerful platform for distributed data collection and rapid data processing. Our goal is to produce a system that's usable today, but that can be modified to take转载 2014-03-12 17:35:23 · 556 阅读 · 0 评论 -
分布式日志收集系统
1. 安装部署1.1 环境要求1.使用的JDK的版本必须是1.6或者更高版本,本实例中使用的是JDK1.62.使用的hadoop的版本必须是Hadoop0.20.205.1及以上版本,本实例中使用的是Hadoop1.0.1版本。3.为了运行HICC,需要使用HBase0.90.4版本1.2 版本选择 这里使用0.5版本 1.3 执行转载 2014-03-11 21:48:55 · 722 阅读 · 0 评论 -
Chukwa在百度的应用实践
从上一篇 chukwa 的简介中,我们知道 chukwa 为日志分析系统提供了一整套的解决方案,其中包含了数据的生成、收集、排序、去重、分析和展示所需要的几乎所有事情,要扩展 chukwa 以实现自己特殊的需求,是很方便的.本文以 chukwa-0.3.0 为例,阐述在 分布式小组内如何以 chukwa 为基础实现"资源状态图"。概述需求"资源状态图"的需求是很明确的,具体分析如下:转载 2014-03-11 22:08:10 · 500 阅读 · 0 评论 -
基于Hadoo的日志收集框架---Chukwa的安装部署
转自: http://savagegarden.iteye.com/blog/1426853chukwa是解决在集群环境中收集各节点增量日志的一种基于hadoop的实现方案,其主要有如下四个组成部分。1. Agents 运行在每个客户端上,负责发送数据。2. Collectors 接收Agents发送的数据并写入稳定存储。3. MapReduce jobs 分析和归档数据。转载 2014-03-10 21:21:18 · 466 阅读 · 0 评论 -
对chukwa hourlyRolling 后的数据进行处理
package org.apache.hadoop.examples;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.chukwa.conf.ChukwaConfiguration;import org.apache.hadoop.chukwa.extraction.demu原创 2014-03-18 17:58:30 · 528 阅读 · 0 评论