小小聪-优快云博客

原创 canal安装和使用

canal安装和使用Canal介绍名称：canal 译意：水道/管道/沟渠语言：纯java开发定位：基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了mysql关键词： mysql binlog parser / real-time / queue&topic工作原理：原理相对比较简单：1.canal模拟mysql slave的交互协议，伪装自己为mysql ...

2018-06-26 17:23:44 1948

impala COMPUTE STATS 指令最近再测试impala 学习到COMPUTE STATS 但是不明白其中的意思用一张表来举例drop table if exists sjqy.small_bak_inf_ofr_asset_exi_hist;--拆分小表 create table sjqy.small_bak_inf_ofr_asset_exi_hist asselect set_e...

2018-03-30 11:24:24 6854

原创 spark ,hive collect_list全局保持顺序

https://www.cnblogs.com/zhnagqi-dream/p/11912317.html

2020-07-06 13:34:31 2682

原创 FlinkSQL实现WordCount

import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.TableEnvironment;import or...

2019-09-26 10:04:37 922

原创 spark wordcount

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object SprakWordCount { def main(args: Array[String]): Unit = { //参数检查 if (args.length < 2) { Sys...

2019-07-26 10:46:52 219

原创 parquet 形式MapReduce hbase 数据写入hdfs

package com.sitech;import com.google.common.collect.Lists;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.h...

2019-05-28 10:40:40 553

原创 Flink 两表关联流批处理消费kafka 数据写入hbase

Flink流批处理消费kafka 数据写入hbase通过flume将数据写入kafka topicKafka topic1 数据：name, age, sexy, proctime.proctimejava,18,男,20190516rose,28,女,20190516tom,38,男,20190516jack,18,男,20190516luoli,19,女,2019...

2019-05-16 11:39:33 4029

原创 Flink 两表关联 Could not instantiate outputs in order

Caused by: java.lang.ClassNotFoundException: org.apache.flink.table.runtime.CRowKeySelector具体报错May 16, 2019 10:12:01 AM com.sitesh.SqlJoinWithKafka mainSEVERE: nullorg.apache.flink.client.progra...

2019-05-16 11:26:15 1862

原创 Flink 同步kafka 数据写入hbase

package com.sitesh.test;import java.io.*;import java.util.Arrays;import java.util.List;import java.util.Properties;import java.util.logging.Level;import java.util.logging.Logger;import org.apa...

2019-05-07 16:53:24 1393

原创 MapReduce hdfs文件写入hbase表

@[TOMapReduce hdfs文件写入hbase表import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put...

2019-03-29 17:17:25 314

原创 mapreduce HDFS 写入hbase 表中

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop....

2019-03-29 17:12:09 256

原创 MapReduce hdfs to hbase

package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...

2019-03-28 17:33:47 242

原创 MapReduce hbase to hdfs

hbase 表数据如下具体代码：import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import ...

2019-03-27 16:02:23 198

原创 MapReduce hdfs 写入 hbase 表

文件内容如下：入hbase 表依赖jar 包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-03-27 15:59:26 296

原创 flink消费kafka数据直接到hdfs

import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...

2019-03-25 11:03:41 1837

原创 flink消费kafka 数据

import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...

2019-03-22 17:16:10 926

原创 flink 编写wordcount

依赖jar包<dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.7.2</version></dependency><dependency&...

2019-03-18 17:43:16 400

原创 kudu+impala 使用手册

1.技术路线oracle--kafka-kudu2.各个组件优缺点Hive：数据直接存放于hdfs中，适合离线分析，确不利于记录级别的随机读写。Hbase：将数据存放再hbase中，适合记录级别的随机读写。对离线分析确不友好。Kudu：是对 hdfs 和 hbase 功能上的补充，能提供快速的分析和实时计算能力Kudu 特性：kudu 面向结构化存储支撑单行事务...

2019-03-13 17:34:33 2816

原创 MapReduce 两个表关联

package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...

2019-03-08 15:50:42 498

原创 MapReduce 单表关联

package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...

2019-03-04 17:40:20 449

原创 MapReduce hbaseToHdfs

package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...

2019-01-23 16:58:43 182

原创 MapReduce多表关联实测

两个表 a 表 name id b 表 id addressa b 代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....

2018-12-11 10:08:13 476

原创 MapReduce 求平均数

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.LongWrita...

2018-11-29 11:21:31 676

原创 MapReduce例子

//MapReduce 排序例子import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.ha...

2018-11-27 17:25:07 214

原创 kafka 基本命令

https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka-1.1.0-src.tgz 下载地址启动消费者kafka-console-consumer.sh --zookeeper 134.96.33.132:9501,134.96.33.133:9501,134.96.33.134:9501 --topic kafk...

2018-11-05 19:47:23 164

转载 springMvc原理

SpringMVC的工作原理图：SpringMVC流程1、用户发送请求至前端控制器DispatcherServlet。2、 DispatcherServlet收到请求调用HandlerMapping处理器映射器。3、处理器映射器找到具体的处理器(可以根据xml配置、注解进行查找)，生成处理器对象及处理器拦截器(如果有则生成)一并返回给DispatcherServlet。4、 Dispa...

2018-06-19 14:28:44 162

原创 oracle

select * from test_county_sex;select county as county, max(case when sex=1 then prou end )as man ,max(case when sex=2 then prou end )as woman from test_county_sex group by county ...

2018-06-19 14:24:12 157

原创 hive基本用法

hive 删除分区alter table pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');alter table pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');三分之一时间处理 from_unixtime(unix_timestamp...

2018-05-08 16:09:00 548

原创 hive 优化

一 .Sql 优化：1. 根据不同的业务场景进行sql优化2. 去除查询过程中不需要的 column3. Where 条件判断再 tablescan 阶段就进行过滤4. 利用partition信息获取有效的数据信息5. Map端的jion 以大表做驱动小表加入内存当中6. 调整jion的顺序进来使大表作为驱动表。7. 对数据分布不均匀的表进行group by 时, 为了避免数据集中到 r...

2018-04-20 10:46:00 402

翻译 impala配合hive使用

1. 使用1.2. 进程启停1.2.1. 启动启动顺序：statestore->catalog->impaladroot用户：在statestore节点service impala-state-store start在catalog节点service impala-catalog start在impalad节点：service impala-server start1.2.2. 停止停...

2018-03-29 17:25:12 3181

原创 hive map reduce 参数设置

现象：1.目前每日load出来的问题sql，最终的结果文件里面很多都只有一条数据。2.资源影响巨大，对照脚本统计出来的sql运行时间，手动执行sql的时间是其十分之一到三分之一。3.不少sql执行时的map数量能达到1000-3000，但是reduce数量在1左右。由于每天load出的excle文档，sjzx租户的sql过长，手动无法执行，其它租户的sql抽取时又存在乱码问题，仅针对了sjzx_b...

2018-03-12 16:51:06 3207

原创 Hive压缩测试

Hive存储格式操作方式：可以在建表的时候指定表的存储格式：stored as orc tblproperties ("orc.compress"="SNNAPY")，不指定表属性则默认压缩采用ZLIB。比如：create table Addresses ( name string, street string, city string, state string, zip int) s...

2018-03-12 16:15:51 992

servletwjx的博客