- 博客(106)
- 资源 (1)
- 收藏
- 关注

原创 快学——docker安装和使用
安装docker环境centeros7#1 卸载之前的dockersudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \
2020-07-09 09:58:16
264

原创 条件触发定时任务的开始和停止
条件触发定时任务的开始和停止业务需求:答题游戏开始后,每5s统计一次结果。答题答完10次后,停止定时任务。第一步:springBoot启动类的设置@SpringBootApplication@EnableSchedulingpublic class App { // 线程存储器 public static ConcurrentHashMap<String, Sch...
2019-11-08 19:47:28
2879
原创 记一次python使用request 请求proxy的问题
参考文章 https://zhuanlan.zhihu.com/p/350015032。有问题换多个版本网上查一下问题,不要想当然的认为不行。
2023-06-20 21:16:02
177
原创 [FLINK] flink checkpoitn和kafka offset commit的关系
flink checkpoitn和kafka offset commit的关系
2022-11-16 17:01:39
555
原创 natapp 使用教程
1.官网https://natapp.cn/2.购买隧道(免费)3.我的隧道->配置->复制auth token4.下载windows / linux客户端 https://natapp.cn/#download5.配置本地ini文件#将本文件放置于natapp同级目录 程序将读取 [default] 段#在命令行参数模式如 natapp -authtoken=xxx 等相同参数将会覆盖掉此配置#命令行参数 -config= 可以指定任意config.ini文件[default
2022-05-23 14:26:21
406
原创 flinksql基础知识
文章目录Table的转换DataStream转换成表创建临时视图输出connector输出到文件输出到kafka输出到ES输出到mysql更新模式追加模式(append mode)撤回模式(retract mode)Upsert(更新插入)模式时间特性处理时间在 DataStream 转化时直接指定在schema中指定在DDL语句中指定事件事件在 DataStream 转化时直接指定定义 Table Schema 时指定创建DDL时指定窗口分组窗口(Group Windows)over window(hiv
2022-05-23 10:33:27
452
原创 flink sql指定rowtime和proctime的几种方式
flink sql 中的rowtime 和proctime参考文章 https://blog.youkuaiyun.com/spring0666/article/details/116994928event time1.sql中创建CREATE TABLE tt_stream ( a VARCHAR, b VARCHAR, ts TIMESTAMP, WATERMARK wk1 FOR ts as withOffset (ts, 1000) --Watermark计算方法。) WITH ();
2022-05-09 12:24:07
1956
原创 flink实时计算uv,并每天使用离线数据更正计算结果
文章目录flink实时计算uv,并每天使用离线数据更正计算结果需求思考1.怎么在flink中判断是新用户?2.flink怎么获取离线数据的结果?3.kafka join hive的字段?4.使用常量字段join,后续处理?5.开窗口6.ds1 interval join ds27.后续处理8.夸一下自己代码flink实时计算uv,并每天使用离线数据更正计算结果需求数据一部分发到kafka实时计算,一部分存到hive离线计算。每天用hive计算的结果更正实时计算的结果。比如hive在2022-05-0
2022-05-08 11:40:25
1177
原创 [pyspark]输出多份csv文件
参考文章https://zhuanlan.zhihu.com/p/363821317代码df.repartition(5).write.csv(path,overwrite)
2022-04-14 09:46:35
366
原创 flink写入带kerberos认证的kudu connector
文章目录前言一、介绍二、先来看kudu java api认证kerberos1.首先需要进行kerberos的验证(需要将相应用户的keytab文件引入本地)2.依赖3.引入hadoop 配置文件4.获取客户端5.增删改查三、修改flink-kudu connector支持kerberos1.先从github 下载源码2.修改四、修改后的代码分享前言找了半天网上一点资料都没有,还是得靠自己。一、介绍flink官方并没有flink-kudu connector,可以用这个第三方的,地址如下https
2022-03-24 09:45:23
3157
2
原创 记一次spark两个大表join数据倾斜调优
a表7亿条b表1亿条a表aid c1 c2 c3b表bid bvalue需求:分别用a表的c1 c2 c3与b表的bid关联(left join),获取bvalue 来扩充a表1.直接写三个left join 发现数据倾斜2.c1 c2 c3 只关联一次如下,进行查看,发现不会出现数据倾斜 df1=spark.sql("select * from b") df2=spark.sql("select * from a") df3=df2.join(df1,df2.c1=df1.bi
2022-03-18 15:06:33
2902
1
原创 spark读csv文件转成map
代码scala> val a=spark.read.csv("/user/flink/qinghua/myconf.txt").rdd.map(x=> x.getString(0)->x.getString(1)).collectAsMap()a: scala.collection.Map[String,String] = Map(date -> 20220103, name -> haha) scala> a("date")res13: String =
2022-03-10 16:13:42
2123
原创 java写好的spark udf 怎么用spark shell 测试
启动的时候spark2-shell --jars hdfs:///xxx/a.jar进入shellimport org.apache.spark.sql.types.StringType;import com.test.udf.MyUdf;spark.sqlContext.udf.register("addressUdf", new MyUdf(),StringType);val a=spark.sql("select addressUdf('xxxx')");a.show();.
2022-03-07 18:53:37
1947
原创 hive udf 遇到的序列化问题
hive udf 序列化问题报错Exception in thread "main" org.apache.hive.com.esotericsoftware.kryo.KryoException: java.lang.UnsupportedOperationException解决 implementing DoNothingSerializerhttps://issues.apache.org/jira/browse/HIVE-7711报错java.io.InvalidClassExcep
2022-03-03 09:45:17
2011
原创 记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系】修复过程
1.检查ntp服务,巧了真的是这个问题原因是ntp服务挂掉了,重新启动后,等10分钟左右再启动所有角色。我启动kudu的时候报错,无法同步还是因时钟同步问题,所以等10分钟左右再启动。2.检查agent server 是否启动(先启动server再启动agent)/opt/cm-5.15.1/etc/init.d/cloudera-scm-agent status (start)server机器: /opt/cm-5.15.1/etc/init.d/cloudera-scm-server st
2022-02-22 17:32:16
1376
原创 记一次封装superset打docker镜像的过程
1.拉取镜像docker pull centos:centos72.运行docker run -itd --name mysuperset centos:centos73.进入容器docker exec -it mysuperset /bin/bash4.更新环境yum -y update5.安装需要的软件1.安装vimyun -y install vim2.安装依赖yum install gcc gcc-c++ libffi-devel python-devel python-p
2022-02-22 09:53:26
1282
原创 aws服务器使用root+密码登陆
aws服务器lightsail使用root+密码登陆创建服务器的时候添加这个脚本千万不要用123456 我使用这个密码不到半天就被人盗了#!/bin/bashecho root:123456 |sudo chpasswd rootsudo sed -i 's/^#\?PermitRootLogin.*/PermitRootLogin yes/g' /etc/ssh/sshd_config;sudo sed -i 's/^#\?PasswordAuthentication.*/PasswordAu
2021-12-28 11:10:24
2049
原创 hive数据迁移到clickhouse+kafka数据写入clickhouse
hive数据迁移到clickhouse文章目录hive数据迁移到clickhouse1.使用命令导入2.使用waterdropkafka数据写入clickhouse1.使用命令导入#1.hive数据导出成csv格式hive -e "select id,name,age from xxx" | tr "\t" "," > /otp/data/test.csv#2.导入clickhouseclickhouse-client -h hadoop102 --query='INSERT INTO
2021-12-16 10:13:13
3727
原创 一个使用logback把日志输出到文件中的小demo
注意事项 修改这个包名 <logger name="com.lqh" 修改日志存放的位置依赖 <dependencies> <!-- logback+slf4j --> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId>
2021-12-15 10:47:10
510
原创 kafka常用命令
# 创建topicbin/kafka-topics --create --topic mytopic --replication-factor 1 --partitions 5 --zookeeper real-time-002:2181/kafka # 查看topic listbin/kafka-topics --list --zookeeper real-time-002:2181/kafka# 查看topic具体信息bin/kafka-topics --describe --zook
2021-12-09 18:33:34
1054
原创 【pyspark】的一些用法
读hdfs上的文件from smart_open import openimport pandas as pdfile_stream = open("hdfs:///tmp/a.csv", encoding='gb2312')file = pd.read_csv(file_stream)这个csv是这种格式的,一个需求求每个class1下得分最高的class2展示class0class1class2varscoreAaa-1zhangsan80Aa
2021-11-17 16:00:55
140
原创 【微信开发6】专属推广二维码 java+SpringBoot
文章目录前言营获取二维码推广功能代码实现前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。营 大家都知道技术不难,难的是营销怎么快速提升公众号的关注数量。微信提供了二维码的功能。 我的思路是,每个关注的用户,都有自己专属的二维码,他可以用这个专属的二维码推广。user_b通过扫user_a码关注公众号,会给user_a增加一个一级推广人数。user_c扫userb的二维码关注公众号,会给user_a增加一个二级推
2021-11-11 16:32:58
828
原创 【微信开发5】菜单点击事件的处理java+SpringBoot
文章目录前言事件处理代码前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。事件处理上一篇讲到自定义菜单的key,点击菜单会携带key发送到后台,我们接受点击事件,根据key来做不同的处理。点击菜单还是调用的我们认证时填写的url。 ip/api/authtoken 可以看第一期。代码 @RequestMapping(value = "/authtoken", method = RequestMethod.POS
2021-11-11 15:55:00
542
原创 【微信开发4】自定义菜单的优化java+SpringBoot
文章目录前言菜单操作删除菜单自定义菜单前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。菜单操作官方文档:https://developers.weixin.qq.com/doc/offiaccount/Custom_Menus/Creating_Custom-Defined_Menu.html因为删除菜单和增加菜单都需要access token,上一篇写了怎么获取。我们可以封装成一个请求来操作。代码如下删除菜单@R
2021-11-11 15:47:00
423
原创 【微信开发3】获取access token优化 java+SpringBoot
文章目录前言获取Access token代码前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。获取Access token官方文档:https://developers.weixin.qq.com/doc/offiaccount/Basic_Information/Get_access_token.html请求说明:https请求方式: GET https://api.weixin.qq.com/cgi-bin/tok
2021-11-11 15:26:06
1269
原创 【微信开发2】自动回复/关键词回复 java+SpringBoot
文章目录前言自动回复代码关键词回复代码前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。自动回复代码当用户在公众号聊天窗口输入内容,会是post请求我们认证的url。认证使用get请求,这个是post请求。用户发送的信息可以是文字、语音、图片和视频等,都是用xml包裹的信息。开发文档:https://developers.weixin.qq.com/doc/offiaccount/Message_Management/
2021-11-11 15:02:22
973
原创 【微信开发1】接入微信服务器 java+SpringBoot
文章目录前言测试账号配置信息代码前言本系列教程采用java springboot框架开发,需要具备一定的基础知识。纯干货代码,自己遇到的一些问题and解决方案。测试账号可以看到如下信息:配置信息代码url:我们项目的地址,测试阶段在本地idea启动+内网穿透(推荐natapp)填写ip/api/authtokentoken:随便填写,代码中和这里填写的一致即可上代码,启动项目填好url和token点测试提交,即可认证通过。@RestController@RequestMapping(
2021-11-11 14:33:49
381
原创 full join的一些问题--拼接所有的字段
drop table if exists lqh_test1;drop table if exists lqh_test2;drop table if exists lqh_test3;drop table if exists lqh_test4;create table lqh_test1(id string,a string);create table lqh_test2(id string,b string);create table lqh_test3(id string,c stri
2021-06-30 10:43:30
474
原创 flink on zeppelin使用手册(持更)
加载udf和jar包%flink.confflink.udf.jars /etc/udf/myudf.jar(或者在hdfs上 hdfs:///tmp/udf/myudf.jar)flink.execuion.jars hdfs:///tmp/flinkjars (加载flink本身不带的jar包)在zeppelin中也可以写udf但是只能用scala写,上面这种方式 java和scala都可以,写完打包加载。查看udf%flink.ssql(type=update)show functio
2021-06-30 10:00:00
267
原创 git不常用命令
删除分支(第一步删除本地 第二步删除远程)git tag -d xxxgit push origin :refs/tags/xxx
2021-06-16 18:15:51
74
转载 【Hbase】常用操作
https://blog.youkuaiyun.com/wuliu_forever/article/details/88345429
2021-05-11 17:23:20
69
原创 【flink】udf数组类型参数 row[]
文章目录需求尝试最终方案需求有如下结构的kafka数据源(json形式)需要计算f1.name=f0.name相等的个数。尝试create view f0_view asselect session_id, proc_time, namefrom gsy_ods,unnest(persons) as t(name, age);create view f1_view asselect session_id, proc_time, namefro
2021-04-29 16:39:31
1255
原创 【DateUtil】java8
package com.xx.dubbo.dubboservice.utils;import java.time.*;import java.time.format.DateTimeFormatter;import java.time.temporal.ChronoUnit;import java.time.temporal.TemporalAdjusters;import java.time.temporal.WeekFields;import java.util.Date;import
2021-04-29 14:44:21
104
原创 【flink】flink sql几种join的探索及应用
文章目录问题需求最终解决方案解释几种join的尝试1.regular join2.interval join3.temporal join4.look up join5.多维temporal join6.Lateral Table Join问题需求最近碰到一个需求,有如下表格这样一个kafka数据源,用flink sql实时enrich这个流,加上两个特征7天内同一申请人申请次数7天内作为担保人出现的次数event_id事件idapply_id申请人idconta
2021-04-25 17:18:33
889
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人