- 博客(32)
- 收藏
- 关注

原创 canal安装和使用
canal安装和使用Canal介绍名称:canal 译意: 水道/管道/沟渠语言: 纯java开发定位: 基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了mysql关键词: mysql binlog parser / real-time / queue&topic工作原理: 原理相对比较简单:1.canal模拟mysql slave的交互协议,伪装自己为mysql ...
2018-06-26 17:23:44
1932

原创 impala COMPUTE STATS 指令
impala COMPUTE STATS 指令最近再测试impala 学习到COMPUTE STATS 但是不明白其中的意思用一张表来举例drop table if exists sjqy.small_bak_inf_ofr_asset_exi_hist;--拆分小表 create table sjqy.small_bak_inf_ofr_asset_exi_hist asselect set_e...
2018-03-30 11:24:24
6829
原创 spark ,hive collect_list全局保持顺序
https://www.cnblogs.com/zhnagqi-dream/p/11912317.html
2020-07-06 13:34:31
2615
原创 FlinkSQL实现WordCount
import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.TableEnvironment;import or...
2019-09-26 10:04:37
909
原创 spark wordcount
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object SprakWordCount { def main(args: Array[String]): Unit = { //参数检查 if (args.length < 2) { Sys...
2019-07-26 10:46:52
208
原创 parquet 形式MapReduce hbase 数据写入hdfs
package com.sitech;import com.google.common.collect.Lists;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.h...
2019-05-28 10:40:40
534
原创 Flink 两表关联 流批处理消费kafka 数据写入hbase
Flink流批处理消费kafka 数据写入hbase通过flume将数据写入kafka topicKafka topic1 数据:name, age, sexy, proctime.proctimejava,18,男,20190516rose,28,女,20190516tom,38,男,20190516jack,18,男,20190516luoli,19,女,2019...
2019-05-16 11:39:33
3894
原创 Flink 两表关联 Could not instantiate outputs in order
Caused by: java.lang.ClassNotFoundException: org.apache.flink.table.runtime.CRowKeySelector具体报错May 16, 2019 10:12:01 AM com.sitesh.SqlJoinWithKafka mainSEVERE: nullorg.apache.flink.client.progra...
2019-05-16 11:26:15
1833
原创 Flink 同步kafka 数据写入hbase
package com.sitesh.test;import java.io.*;import java.util.Arrays;import java.util.List;import java.util.Properties;import java.util.logging.Level;import java.util.logging.Logger;import org.apa...
2019-05-07 16:53:24
1373
原创 MapReduce hdfs文件写入hbase表
@[TOMapReduce hdfs文件写入hbase表import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put...
2019-03-29 17:17:25
304
原创 mapreduce HDFS 写入hbase 表中
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop....
2019-03-29 17:12:09
246
原创 MapReduce hdfs to hbase
package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...
2019-03-28 17:33:47
223
原创 MapReduce hbase to hdfs
hbase 表数据如下具体代码:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import ...
2019-03-27 16:02:23
187
原创 MapReduce hdfs 写入 hbase 表
文件内容如下:入hbase 表依赖jar 包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...
2019-03-27 15:59:26
281
原创 flink消费kafka数据直接到hdfs
import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...
2019-03-25 11:03:41
1819
原创 flink消费kafka 数据
import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...
2019-03-22 17:16:10
906
原创 flink 编写wordcount
依赖jar包<dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.7.2</version></dependency><dependency&...
2019-03-18 17:43:16
383
原创 kudu+impala 使用手册
1.技术路线oracle--kafka-kudu2.各个组件优缺点Hive:数据直接存放于hdfs中,适合离线分析,确不利于记录级别的随机读写。Hbase:将数据存放再hbase中,适合记录级别的随机读写。对离线分析确不友好。Kudu:是对 hdfs 和 hbase 功能上的补充,能提供快速的分析 和实时计算能力Kudu 特性:kudu 面向结构化存储 支撑单行事务...
2019-03-13 17:34:33
2797
原创 MapReduce 两个表关联
package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...
2019-03-08 15:50:42
487
原创 MapReduce 单表关联
package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...
2019-03-04 17:40:20
435
原创 MapReduce hbaseToHdfs
package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...
2019-01-23 16:58:43
174
原创 MapReduce多表关联实测
两个表 a 表 name id b 表 id addressa b 代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....
2018-12-11 10:08:13
454
原创 MapReduce 求平均数
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.LongWrita...
2018-11-29 11:21:31
667
原创 MapReduce例子
//MapReduce 排序例子import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.ha...
2018-11-27 17:25:07
202
原创 kafka 基本命令
https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka-1.1.0-src.tgz 下载地址 启动消费者kafka-console-consumer.sh --zookeeper 134.96.33.132:9501,134.96.33.133:9501,134.96.33.134:9501 --topic kafk...
2018-11-05 19:47:23
151
转载 springMvc原理
SpringMVC的工作原理图:SpringMVC流程1、 用户发送请求至前端控制器DispatcherServlet。2、 DispatcherServlet收到请求调用HandlerMapping处理器映射器。3、 处理器映射器找到具体的处理器(可以根据xml配置、注解进行查找),生成处理器对象及处理器拦截器(如果有则生成)一并返回给DispatcherServlet。4、 Dispa...
2018-06-19 14:28:44
156
原创 oracle
select * from test_county_sex;select county as county, max(case when sex=1 then prou end )as man ,max(case when sex=2 then prou end )as woman from test_county_sex group by county ...
2018-06-19 14:24:12
150
原创 hive基本用法
hive 删除分区alter table pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');alter table pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');三分之一时间处理 from_unixtime(unix_timestamp...
2018-05-08 16:09:00
533
原创 hive 优化
一 .Sql 优化:1. 根据不同的业务场景进行sql优化2. 去除查询过程中不需要的 column3. Where 条件判断再 tablescan 阶段就进行过滤4. 利用partition信息 获取有效的数据信息5. Map端的jion 以大表做驱动 小表加入内存当中6. 调整jion的顺序 进来使 大表作为驱动表。7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 r...
2018-04-20 10:46:00
389
翻译 impala配合hive使用
1. 使用1.2. 进程启停1.2.1. 启动启动顺序:statestore->catalog->impaladroot用户:在statestore节点service impala-state-store start在catalog节点service impala-catalog start在impalad节点:service impala-server start1.2.2. 停止停...
2018-03-29 17:25:12
3140
原创 hive map reduce 参数设置
现象:1.目前每日load出来的问题sql,最终的结果文件里面很多都只有一条数据。2.资源影响巨大,对照脚本统计出来的sql运行时间,手动执行sql的时间是其十分之一到三分之一。3.不少sql执行时的map数量能达到1000-3000,但是reduce数量在1左右。由于每天load出的excle文档,sjzx租户的sql过长,手动无法执行,其它租户的sql抽取时又存在乱码问题,仅针对了sjzx_b...
2018-03-12 16:51:06
3173
原创 Hive压缩测试
Hive存储格式操作方式:可以在建表的时候指定表的存储格式:stored as orc tblproperties ("orc.compress"="SNNAPY"),不指定表属性则默认压缩采用ZLIB。比如:create table Addresses ( name string, street string, city string, state string, zip int) s...
2018-03-12 16:15:51
966
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人