普通网友-优快云博客

原创 hive建表语法中的分隔符设定

FIELDS TERMINATED BY：设置字段与字段之间的分隔符COLLECTION ITEMS TERMINATED BY：设置一个复杂类型（array,struct)字段的各个item之间的分隔符MAP KEYS TERMINATED BY：设置一个复杂类型(Map)字段的key value之间的分隔符LINES TERMINATED BY：设置行与行之间的

2015-12-22 10:29:53 5142

####################### System唯一标识在集群中的ID，要求是正数。broker.id=0服务端口，默认9092port=9092监听地址，不设为所有地址host.name=debugo01处理网络请求的最大线程数num.network.threads=2处理磁盘I/O的线程数num.io.threads=8一些后台线程数background.threads = 4等待I

2015-11-13 15:07:49 508

原创 flume-ng与kafka整合

一）安装好flume-ng集群（四台cdh2,cdh3,cdh4 172.17.199.107为远程日志文件所在的主机）二）安装好kafka集群（三台cdh1,cdh2,cdh3）三）自定义flume kafka sink,打jar包放到flume安装目录的lib目录下四）配置flume-ng的配置文件 Cdh2的配置文件fm_kfk.conf如下： producer.sour

2015-11-13 15:01:31 756

转载 Kafka文件存储机制

1.Kafka文件存储机制 Kafka部分名词解释如下： • Broker：消息中间件处理结点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。 • Topic：一类消息，例如page view日志、click日志等都可以以topic的形式存在，Kafka集群能够同时负责多个topic的分发。 • Partition：topic物理上的分组，一

2015-11-13 14:35:37 336

原创 flume-ng的channe配置type=file例子

my_agent.channels.my_channel_1.type = filemy_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPointmy_agent.channels.my_channel_1.useDualCheckp

2015-11-04 14:25:57 396

原创 flume-ng开发自己的source两种方法

第一种方法;继承AbstractSource抽象类并实现EventDrivenSource,Configurable接口：代码如下：import org.apache.flume.conf.Configurable;import org.apache.flume.source.AbstractSource;public class TailSource extendsA

2015-11-02 09:51:03 349

转载 flume-ng与flume-og的区别

Cloudera 开发的分布式日志收集系统 Flume，是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在

2015-10-30 10:19:21 597

转载 Flume 1.4.0 NG 分布式集群搭建

最近使用Flume1.4 做日志收集，分享一下具体的集群环境配置搭建。其中使用到了3台机器， hadoop 192.168.80.100 hadoop1 192.168.80.101 hadoop2 192.168.80.102 , 将 hadoop 和 hadoop2 机器上面指定的flume 监控到的文件夹中产生的日志文件通过 agent 汇集到 hadoop1 机器

2015-10-30 10:13:27 334

原创 textfile转换成rcfile,parquet,hfile

一、textfile转换成rcfile 通过hive实现 1.1在hive创建表 create table tablename(s string,x string,y string,a double,b double); 1.2然后load data本地textfile load data local inpath '本地路径的textfile'

2015-10-16 13:16:17 1893

原创通过MapReduce程序实现对hbase表数据的插入

import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apach

2015-10-16 13:11:12 384

原创 impala表使用rcfile，sequencefile和parquet

impala表使用rcfile文件格式一、在impala中创建rcfile表 create table rcfile_table (column_specs) stored as rcfile; 或者 create table rcfile_table like some_other_table stored as rcfile;二、在hive中导入数据到rc

2015-10-16 13:07:36 750

原创 sqoop从mysql数据库导入数据到hdfs中

从mysql数据库导入数据到hdfs一般导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username bank -password bank --table tt追加导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username ba

2015-10-16 13:06:11 306

原创 impala测试

一、hdfs上的txt文件数据导入impala表中进行查询 1.1在impala创建表 create table impala_hive_table(rank_id stirng,bank_id string,bank_name string,area_id double,bank_type double); 或者是在hive创建表 create table

2015-10-16 13:05:01 485

原创 mysql数据导入hive和hbase

一、把mysql数据库的表导出为txt文本文件 select * from tablename into outfile "/filename.txt";二、在hive中创建对应的表 create table hive_table (column1 string,column2 string);三、把filename.txt文件导入hive表 load dat

2015-10-16 13:02:00 294

原创 jdbc连接impala

jdbc连接impala例子

2015-10-16 12:31:09 848