- 博客(25)
- 资源 (10)
- 收藏
- 关注

原创 自定义Hbasesink实现自定义rowkey及实时传输数据库数据至大数据平台
自定义Hbasesink实现自定义rowkey及自定义数据格式/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for addi
2017-09-13 10:11:27
1937
原创 阿里巴巴大数据之路读书分享
阿里巴巴大数据之路读书分享文章目录阿里巴巴大数据之路读书分享前言阿里巴巴大数据系统的体系架构图及介绍数据采集层数据采集数据传输数据计算层离线数据开发实时数据开发数据服务层数据应用数据模型模型体系架构模型实施维表设计事实表设计规范定义结语前言《阿里巴巴大数据之路》业内公认好书,几乎人手一本,奈何绝版了。托公司的福,有幸拜读此书。特分享下本人的所读所感。本人将借用两张图来介绍此书,其一阿里巴巴...
2019-08-16 12:33:14
2391
原创 flume中几种常见的source、channel、sink
flume中几种source、channel、sink的区别一、source1、avro source侦听Avro端口并从外部Avro客户端流接收事件。 当与另一个(上一跳)Flume代理上的内置Avro Sink配对时,它可以创建分层集合拓扑。 channels– type–The component type na
2017-11-14 11:25:34
22876
原创 hbase重点总结
Hbase 官网:http://hbase.apache.org/1、hbase rowkey怎么创建比较好,列簇怎么创建比较好?1、三维Hbase有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时
2017-11-14 11:20:13
2100
原创 UDF函数
UDF函数 UDF函数可以直接应用于select语句,对查询结构做格式化处理输出内容。自定义UDF需要继承org.apache.hadoop.hive.ql.UDF,实现evaluate函数。自定义udf函数步骤: 1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/
2017-11-14 11:09:51
10619
原创 hive优化
Hive优化1、fetchTask直接抓取数据Single query设置:hive.fetch.task.conversion为more默认的select start *、分区表的过滤(filter on partition columns)、limit only不走MR2、大表拆成子表、外部表与分区表结合使用、设置数据的存储格式与数据压缩。大表拆成子表:create t
2017-11-14 11:06:18
431
原创 cloudera-manager安装
cloudera-manager安装一、机器准备选用服务器或者阿里云服务器,安装CentOS6.5系统。注意:安装操作系统时,选择桌面版,其他版本会出现缺失包等异常错误,请安装64位版本,CM不支持32位CentOS。验证方法:使用root用户查看操作系统 /proc/version文件的内容,如果含有x86_64 字样说明该操作系统为64位版本,否则为32位操作系统。、二、C
2017-11-14 11:03:45
1991
原创 离线项目pom文件
- 4.0.0 com.ibeifeng.bigdata.offline offline_data_analystics 0.0.1-SNAPSHOT jar offline_data_analystics http://maven.apache.org- UTF-8 2.5.0-cdh5.3.6 0.98.6-cdh5.3.6 0.13.1-cd
2017-11-14 11:00:49
871
原创 hive查询语句
Hive查询1、hive模糊搜索表show tables like '*name*';2、查看表结构信息desc formatted tablename;desc table_name3、查看分区信息show partitions tablename;4、根据分区查询数据select table_coulm from tablename where partit
2017-11-14 10:58:24
15246
原创 sqoop脚本
关系型数据库到大数据平台到关系型数据库shell脚本测试脚本#!/bin/bashyy=$(date -d 'yesterday' +'%Y')mm=$(date -d 'yesterday' +'%m')dd=$(date -d 'yesterday' +'%d')建基础表分区目录hdfs dfs -mkdir -p /ZYB/ORDER_INFO/yy=$yy/mm
2017-11-14 10:43:06
1292
原创 Error: java.io.IOException: Can't export data, please check failed map task logs
Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112) at org.apache.sqoop.map
2017-11-14 10:40:08
10760
1
原创 hive与es交互bug
hive与es交互bug一、hive数据写入es,hive查询报错(貌似不能查询)Bad status for request TFetchResultsReq(fetchType=0, operationHandle=TOperationHandle(hasResultSet=True, modifiedRowCount=None, operationType=0, opera
2017-11-09 11:20:20
5545
原创 搭建CDH版phoenix
搭建CDH版phoenix说明: 网上有搭建的文档,但是还是踩了很多坑。 我用的CDH5.8.4,对应的hbase是1,2的。安装: 下载地址:https://github.com/chiastic-security/phoenix-for-cloudera/tree/4.8-HBase-1.2-cdh5.8 下载一个zip压缩包,解压后放到集群一台机器中
2017-09-14 14:01:26
880
原创 Supervisor后台进程管理工具
Supervisor后台进程管理工具安装配置一、安装及配置1、Python liunx自带有了不需要安装(没有的话需要安装)2、easy_install是setuptools包里带的一个命令 wget--no-check-certificate https://bootstrap.pypa.io/ez_setup.py -O - | sudo python3、
2017-09-13 10:25:28
2957
原创 安装es_bug
安装es_bug1、不能用root用户启动。 重新建一个用户 ,分配文件权限2、unable to install syscall filter Centos6不支持SecComp,而ES5.2.0默认bootstrap.system_call_filter为true. 解决: vi elasticsearch-5
2017-08-31 10:03:59
2051
原创 好用的连接
有用的连接 MySQLwindowsX64:https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.19-winx64.zip linux X64 https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.19-1.el6.x86_64.rpm-bundle
2017-08-15 13:24:43
335
原创 kylin jdbc连接
kylin jdbc连接package test_kylin;import java.sql.Connection;import java.sql.Driver;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.util.Properties;public class KylinCon
2017-08-15 10:39:32
1303
原创 DataGrip使用方法
DataGrip使用方法 DataGrip连接数据库工具,下面图片展示如何连接:(对于菜单式操作的工具,适应的办法就是多 点点 点)一选择驱动或者配置驱动配置hive驱动配置kylin驱动二、测试连接三、查询
2017-08-03 15:54:40
9888
2
原创 oozie_mail
任务调度报错发送邮件配置 小伙伴们任务失败了,别人家的公司都有各种提醒。不过没事oozie有。我是用的cloudera_manager管理的,下面介绍下如何配置邮件提醒: 一、开启sla服务等级协议二、配置smtp邮件服务器地址1、邮件账户的smtp服务器地址2、(发件)邮箱用户名3、(发件)邮箱密码以上步骤可以在oozie-site.xml
2017-08-01 10:37:57
2435
原创 oozie_bug
oozie_bug提交oozie任务(包含sqoop任务的shell脚本)报如下错误:Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.FileNotFoundException: File does not exist: hdfs://name
2017-07-31 19:50:13
1306
1
原创 spark开发环境搭建
kafka_spark集成kafka创建话题、消费者、生产者1、话题bin/kafka-topics.sh --create --zookeeper 192.168.20.10:2181 --replication-factor 1 --partitions 1 --topic test 2、生产者 bin/kafka-console-producer.sh --broke
2017-07-05 14:07:00
1535
原创 flume/kafaka/spqrk测试用例
flume+spark(一)一、flume代码#exec source + memory channel + hdfs sink # Name the components on this agent a2.sources = r1 a2.sinks = k1 a2.channels = c1 # Describe/configure the source a
2017-07-03 09:47:39
626
原创 手动删除/kylin hdfs 上的数据
手动删除/kylin hdfs 上的数据 使用kylin一段时间,有心的数据猿一定发现kylin指定的work folder目录下存储的数据越来越多。我们在使用kylin时,由于数据模型设计及其他问题,多次数据回溯,导致kylin的work folder下存储量越滚越大。不得不手动清除。 kylin提供了清理的java类:org.apache.kylin.storage
2017-06-21 16:58:54
2413
jqxx机器学习实践
2017-09-14
sparksql编程指南
2017-09-14
mysql驱动包
2017-09-14
kylin-jdbc-2.0.0.jar
2017-09-14
elasticsearch-5.5.2.tar.gz
2017-09-14
hbasesink 自定义序列化类
2017-09-14
phoenix-4.8.0-cdh5.8.0-server.jar
2017-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人