- 博客(15)
- 收藏
- 关注
原创 hive建表语法中的分隔符设定
FIELDS TERMINATED BY:设置字段与字段之间的分隔符COLLECTION ITEMS TERMINATED BY:设置一个复杂类型(array,struct)字段的各个item之间的分隔符MAP KEYS TERMINATED BY:设置一个复杂类型(Map)字段的key value之间的分隔符LINES TERMINATED BY:设置行与行之间的
2015-12-22 10:29:53
5092
转载 kafka配置文件主要配置
####################### System唯一标识在集群中的ID,要求是正数。broker.id=0服务端口,默认9092port=9092监听地址,不设为所有地址host.name=debugo01处理网络请求的最大线程数num.network.threads=2处理磁盘I/O的线程数num.io.threads=8一些后台线程数background.threads = 4等待I
2015-11-13 15:07:49
469
原创 flume-ng与kafka整合
一) 安装好flume-ng集群(四台cdh2,cdh3,cdh4 172.17.199.107为远程日志文件所在的主机)二) 安装好kafka集群(三台cdh1,cdh2,cdh3)三) 自定义flume kafka sink,打jar包放到flume安装目录的lib目录下四) 配置flume-ng的配置文件 Cdh2的配置文件fm_kfk.conf如下: producer.sour
2015-11-13 15:01:31
715
转载 Kafka文件存储机制
1.Kafka文件存储机制 Kafka部分名词解释如下: • Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。 • Topic:一类消息,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。 • Partition:topic物理上的分组,一
2015-11-13 14:35:37
309
原创 flume-ng的channe配置type=file例子
my_agent.channels.my_channel_1.type = filemy_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPointmy_agent.channels.my_channel_1.useDualCheckp
2015-11-04 14:25:57
362
原创 flume-ng开发自己的source两种方法
第一种方法;继承AbstractSource抽象类并实现EventDrivenSource,Configurable接口:代码如下:import org.apache.flume.conf.Configurable;import org.apache.flume.source.AbstractSource;public class TailSource extendsA
2015-11-02 09:51:03
325
转载 flume-ng与flume-og的区别
Cloudera 开发的分布式日志收集系统 Flume,是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在
2015-10-30 10:19:21
556
转载 Flume 1.4.0 NG 分布式集群搭建
最近使用Flume1.4 做日志收集,分享一下具体的集群环境配置搭建。其中使用到了3台机器, hadoop 192.168.80.100 hadoop1 192.168.80.101 hadoop2 192.168.80.102 , 将 hadoop 和 hadoop2 机器上面指定的flume 监控到的文件夹中产生的日志文件通过 agent 汇集到 hadoop1 机器
2015-10-30 10:13:27
307
原创 textfile转换成rcfile,parquet,hfile
一、textfile转换成rcfile 通过hive实现 1.1在hive创建表 create table tablename(s string,x string,y string,a double,b double); 1.2然后load data本地textfile load data local inpath '本地路径的textfile'
2015-10-16 13:16:17
1856
原创 通过MapReduce程序实现对hbase表数据的插入
import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apach
2015-10-16 13:11:12
359
原创 impala表使用rcfile,sequencefile和parquet
impala表使用rcfile文件格式一、在impala中创建rcfile表 create table rcfile_table (column_specs) stored as rcfile; 或者 create table rcfile_table like some_other_table stored as rcfile;二、在hive中导入数据到rc
2015-10-16 13:07:36
717
原创 sqoop从mysql数据库导入数据到hdfs中
从mysql数据库导入数据到hdfs一般导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username bank -password bank --table tt追加导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username ba
2015-10-16 13:06:11
278
原创 impala测试
一、hdfs上的txt文件数据导入impala表中进行查询 1.1在impala创建表 create table impala_hive_table(rank_id stirng,bank_id string,bank_name string,area_id double,bank_type double); 或者是在hive创建表 create table
2015-10-16 13:05:01
445
原创 mysql数据导入hive和hbase
一、把mysql数据库的表导出为txt文本文件 select * from tablename into outfile "/filename.txt";二、在hive中创建对应的表 create table hive_table (column1 string,column2 string);三、把filename.txt文件导入hive表 load dat
2015-10-16 13:02:00
272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人