- 博客(32)
- 资源 (1)
- 收藏
- 关注
原创 【无标题】gp及orc修改字段类型
alter table tbnm alter column clnm type 字段类型;alter table rbnm modify clnm 字段类型;在用的表修改字段类型或长度。
2024-10-24 17:26:22
210
原创 sql 中队不同列进行排名对比
假设 tablea 中有 a b c d 四个相同属性但是类别不同的列,现在想要对四个列进行排名。select1+(case when a < b then 1 else 0 end ) + (case when a < c then 1 else 0 end) + (case when a < d then 1 else 0 end) as a_rd,1+(case when b < a then 1 else 0 end) + (case when b < c the
2021-08-07 22:10:40
289
原创 kafka
产品的整体介绍(1)一个分布式流媒体平台(2)在系统或应用程序之间构建可靠的用于传输实时数据的管道,消息队列功能(3)构建实时的流数据处理程序来变换或处理数据流,数据处理功能(4)Kafka性能超过ActiveMQ等传统MQ工具,集群扩展性好。弊端是:(1)在传输过程中可能会出现消息重复的情况,(2)不保证发送顺序(3)一些传统MQ的功能没有,比如消息的事务功能。所以通常用Kafka处理大数据日志。2.产品的特性及实现原理特性:1.高吞吐量、低延迟kafka每秒可以处理几十万条消.
2021-03-27 16:46:21
234
原创 sqoop 导数据从 mysql 到 hdfs,load 进 hive
sqoop 从 mysql 导数据到 hive 命令:sqoop import --connect 'jdbc:mysql://127.0.0.1:8066/int_vst_wx' --username 'user' --password 'password' --table fact_interfaces_visits_wx1 --hive-import --create-hive-table --target-dir /warehouse/tablespace/managed/hive/fact_i
2020-08-19 13:53:30
299
转载 airflow 安装
当前配置情况:Python 2.7.5Mysql 5.7.31pip 20.1.1airflow 1.10.111、默认自带python2环境,自行安装pipsudo yum -y install epel-releasesudo yum -y install python-pip12、进行pip的更新,否则很多安装会报错sudo pip install --upgrade pipsudo pip install --upgrade setuptools3、安装开发库sudo y
2020-08-10 19:46:23
193
原创 sqoop 从 phoenix、mysql 导数据到hdfs、hive 时碰到的一些问题
[root@node1 usr]# bin/sqoop import --connect 'jdbc:mysql://172.16.0.13:16045/active_user_stats?useUnicode=true&characterEncoding=utf-8&useSSL=FALSE&serverTimezone=GMT%2B8&convertToNull=CONVERT_TO_NULL&allowMultiQueries=true' --userna...
2020-06-17 17:35:01
706
转载 kettle 学习文档
kettle 教程(一):简介及入门传送门kettle 教程(二):常用输出(插入更新、表输出、执行 SQL 脚本)传送门kettle 教程(三):条件判断 Switch Case传送门kettle 教程(四):自定义 Java 代码传送门...
2020-04-02 16:29:49
376
原创 MySQL 取前三十天每天的日期 组内排序 拓展
mysql 取前三十天日期:SELECT @rownum:=@rownum+1 AS rownum,DATE_SUB(SYSDATE(),INTERVAL @rownum DAY) as da FROM (SELECT @rownum:=0) r,tableName limit 0,30;设置一个变量,获取行号,然后获取变量内的数据用于 DATE_SUB 函数来获取前 rownum 数量的...
2020-02-20 15:04:53
550
1
原创 flume 导数据从 kafka 到 mysql (二)
Flume 版本:1.8.0Mysql 版本:8.0Kafka 版本:1.0.1一、创建 maven,编辑 连接 mysql 的插件创建 maven 工程,自定义插件,供 flume 的sink 使用:Pom.xml<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.jz.flume</gr...
2019-11-28 11:04:08
725
转载 flume 导数据 从 kafka 到 mysql(一)固定列值
现在做的是固定表到 mysql 的设置,需要自定义 udf 然后传入固定的列值。先创建一个 maven 工程,自定义 jar 的编写:pom.xml<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.jz.flume</groupId><artifactId>flumeMysq...
2019-11-22 18:32:08
303
原创 kafka
kafka 测试消息https://blog.youkuaiyun.com/qq_41665356/article/details/80376075kafka 基本使用命令https://blog.youkuaiyun.com/qq_24347541/article/details/91492101
2019-10-28 09:57:48
145
原创 phoenix 创建索引和视图、百分比函数、分位函数、日期格式函数
创建索引:create index IDX_USER_ACTION_USER_SCHOOL on fact_user_action(user_id,school_id);异步创建索引:create index idx_inner_log_interface_date on inner_log(interface,datekey)include (UPSTREAM_RESPONSE_TIME...
2019-10-24 09:36:43
498
原创 canal正常启动,但是无法读取 bin log 日志,meta.data 文件的原因
canal 不知道因为什么原因挂掉了,重启的话,adapter 端日志也显示启动正常,找了半天是因为 canalserver 端的配置出现问题,conf 目录下的 meta.dat 文件读取的文件不存在,错误日志是这样的:2019-09-15 23:59:21.853 [destination = testcore , address = /172.18.108.67:3306 , EventP...
2019-09-16 15:25:58
5797
4
原创 apache pig 读取日志处理,取不固定列最后一段数据
pig 脚本--加载注册所需的 jar 包和方法REGISTER /usr/hdp/current/pig-client/piggybank.jar;set phoenix.schema.isNamespaceMappingEnabled true;REGISTER /usr/hdp/current/phoenix-client/phoenix-client.jar;-- so...
2019-09-06 13:55:53
190
原创 java 人脸识别博客
https://blog.youkuaiyun.com/qq_34137397/article/details/78093056
2019-09-02 16:03:30
189
原创 python 脚本输出命令行的小错误
python 脚本中,定义命令行输出 json 文件可能会导致命令行和定义的变量后跟的引号产生错行,从而导致命令不生效如下所示:string = "python /data/datax/bin/datax.py /data/datax_jobs/useraction/" + fileName+" -p '-DlastTime=\""+last_time+"\"'"print string...
2019-08-27 10:17:21
315
原创 elasticsearch 建立别名
1.创建索引curl -XPUT "172.0.0.1:9200/index_par_rel_v4" -H 'Content-Type: application/json' -d '{ "mappings": { "properties": { "Id" : {"type" :"long"}, "parentId" :{ "type...
2019-08-21 11:37:58
2822
1
原创 canal 日志中 ERROR c.a.otter.canal.client.adapter.es.support.ESTemplate ...document missing 产生的可能的原因
canal 日志中经常会有日志信息2019-08-14 15:02:24.843 [pool-2-thread-1] ERROR c.a.otter.canal.client.adapter.es.support.ESTemplate - [index_user_v4/j9SX_DfjTB6mcqmLCEH84g][[index_user_v4][0]] DocumentMissingExce...
2019-08-14 15:25:15
1859
3
原创 canal 项目具体
Canal版本:1.1.3位置:测试环境 /data/realTask/canal目前传数据主要是放在测试环境,主要是 testcore 库中的 t_user,t_user_class_rel,t_school_data,t_dd_area,t_user_school_rel,t_school_dept,t_user_parenthood_rel 表中的数据。配置文件:Applicati...
2019-08-13 16:25:37
330
原创 canal 取 mysql到 elasticsearch
1.安装 canal 和 elasticsearch教程很多,可自行搜索(我这里用的 canal 是 1.1.3 版本,es 则是 7.2的,mysql 用的是 5.7)2.在 es 中创建 index,mapping,我这里有一个父子维关系,整个有点长curl -XPUT "172.17.1.9:9200/index_user_v4" -H 'Content-Type: applicat...
2019-08-02 17:27:56
308
原创 canal 增量抽取 mysql 数据到 elasticsearch 遇到的坑
第一个是在 bin 目录下启动 sh 脚本,但是没有反应,排查了半天是因为当前账号没有权限,重新搞了一个账号切换就ok了,第二个比较坑一点,我这里用的是 canal 1.1.3 的版本,es 用的是 7.2 ,这样搞出来导致数据写入不成功,在源码测试了半天也没有结果,显示 canal 已经把数据传递出去了,而且 _mapping 设计的没有问题,看了半天发现 es 报错ERROR c.a.o....
2019-07-19 13:56:36
5605
原创 crontab 定时任务报错 java: command not found
在原来服务器上写的定时任务,在任务转移之后定时任务不能成功执行,脚本没问题,用 sh 命令可以执行,但是目标地点没有数据,日志显示报错 :From root@bd-bi-node06.localdomain Wed Jun 26 16:11:01 2019Return-Path: <root@bd-bi-node06.localdomain>X-Original-To: roo...
2019-06-26 17:00:04
2140
原创 shell脚本执行 phoenix 命令,操作数据库表
先写好 sql 脚本,将自己要执行的操作依次写下。table.sqluse log_ana;drop table sample;create table sample(id integer primary key,t1 varchar,t2 varchar);编写 shell 脚本,将自己的 sql 脚本写入执行命令(我用的是 hbase 的 phoenix)table.sh!#...
2019-06-19 16:30:49
1426
原创 python脚本执行 json 文件
最近老大要求写个定时执行的调度程序,来保证写好的 json 文件能在有变量的情况下,可以把每小时的任务按照增量抽取的方法保存到 hdfs,而且需要把 json 运行的日志按照天为单位保存在本地目录下,赶忙找来小老弟把这个程序写了一下。 #!/usr/bin/python # -*- coding: UTF-8 -*- import threading import time impor...
2019-06-13 10:00:49
2105
原创 datax 导数据,从 mysql 到 phoenix
fact_user_role.json{"job": { "entry": { "jvm": "-Xms2048m -Xmx2048m" }, "content": [ { "reader": { "name": "mysqlreader", "par...
2019-06-10 15:47:44
1882
转载 kafka+spark+phoenix 数据传递
1.在IDEA新建一个maven项目:pom.xml<properties> <scala.version>2.11.8</scala.version> <spark.version>2.3</spark.version> <spark.artifact>2.11</spark.artifac...
2019-06-10 14:56:03
741
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人