- 博客(172)
- 收藏
- 关注
原创 flink-1.17 log4j2 log推送
flink-conf.yml曾如下配置获取 yarn 的ContainerId。log4j.propertites增加如下配置。启动命令传入job_name。
2023-08-22 09:12:10
343
原创 fastjson2 JSONWriter.Feature介绍
JSONWriter.Feature介绍JSONWriter.Feature介绍FieldBased基于字段反序列化,如果不配置,会默认基于public的field和getter方法序列化。配置后,会基于非static的field(包括private)做反序列化。IgnoreNoneSerializable序列化忽略非Serializable类型的字段BeanToArray将对象序列为[101,“XX”]这样的数组格式,这样的格式会更小WriteNulls序列
2023-06-30 16:01:04
3097
原创 redis 数据结构
简单动态字符串 双向链表、压缩链表 压缩链表、哈希表 压缩链表、整数数组 压缩链表、跳表。跳表 双向链表 压缩链表 哈希表 整数数组。数据类型和底层结构的对应关系。底层实现的时间复杂度。
2023-01-11 20:23:36
97
原创 flink sql hbase kerberos 问题记录
当flink-conf.yaml配置了kerberos但是还遇到了无法连接问题,从下面代码可以看出是因为没有加载配置文件导致16020 failed on local exception: org.apache.hadoop.hbase.exceptions.ConnectionClosedException: Connection closed at org.apache.hadoop.hbase.ipc.IPCUtil.wrapException(IPCUtil.java:206) at org.
2022-05-23 17:01:25
913
原创 win系统编译 streamx 问题
操作系统版本;win11jdk版本:JDK 1.8.0_302scala版本:2.11.12代码分支:1.2.2-releasemaven版本:3.8编译命令:mvn clean install -DskipTests -Denv=prod错误详情:[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:4.3.0:compile (install-scala) on project streamx-
2022-04-14 09:57:10
884
原创 ernie2.0 训练代码
1.输入内容映射为ID-基于单个字进行映射paddlenlp.transformers.tokenizer_utils.PretrainedTokenizer.convert_tokens_to_ids def convert_tokens_to_ids(self, tokens): if tokens is None: return None if isinstance(tokens, str): if token
2022-03-11 16:46:43
513
原创 情感分析处理-学习paddle
情感分析分为三个经典任务句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(Opinion Target Extraction)
2022-03-01 15:30:14
490
原创 flink轮询写入local节点
1.通过分布式表解析数据库名字、local表名、对应集群名称SELECT engine_full FROM system.tables WHERE database = ? AND name = ? String cluster = matcher.group("cluster"); String database = matcher.group("database"); String table ..
2022-02-26 11:11:49
1051
原创 OLAP对比
OLAP产品 Kylin Druid Clickhouse Impala+Kudu Presto+HDFS ElasticSearch+Hbase 支持数据规模 百TB~数十PB(几十亿~百亿) 百TB~PB 百TB~PB(几亿~几十亿) TB~PB ...
2022-02-25 15:59:57
1043
原创 CK集群搭建
安装包下载wget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-server-21.4.3.21-2.noarch.rpmwget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-common-static-21.4.3.21-2.x86_64.rpmwget https://repo.yandex.ru/clickhouse/rpm/stab
2022-02-25 15:28:39
1854
原创 clickhouse学习
nternal_replication:是否只写入所有replica中的一台true:代表了只写入shard内的一台,与ZooKeeper配合进行复制;false:代表了写入shard内所有的replica,与分布式表配合进行复制。遇到的问题点1nternal_replication:TRUECK集群,建立本地表,engine=MergeTree(),基于本地表建立分布式表,通过flink将数据插入到节点A的本地表,通过分布式表查询数据,只有节点A可以查得到,其余节点都无法进行查询,将本地表的e
2022-02-22 19:26:15
624
原创 conda 安装 pytorch
1.修改pip以及conda为国内源pip.ini[global]index-url=https://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun.com.condarcchannels: - https://mirrors.aliyun.com/anaconda/cloud/ursky - https://mirrors.aliyun.com/anaconda/cloud/stackless
2021-12-06 13:51:20
1620
原创 flink sql 复杂json解析
{ "messageHeader" : { "messageID" : 2, "responseFlag" : -2 }, "messageBody" : { "time" : "2021-09-09T12:45:48", "vehicleBase" : { "id" : null, "vin" : null, "vehicleStatus" : 1, "chargeStatus" : 3 }, "a
2021-09-21 23:11:48
1498
原创 flink自定义connector
实现细节1.实现DynamicTableSourceFactory , DynamicTableSinkFactory 注册 自定义connector resources目录下创建文件 org.apache.flink.table.factories2.自定义DynamicTableSource和DynamicTableSink 生成逻辑计划3.根据维表或者select功能实现LookupTableSource,ScanTableSource4.创建具体干活的查询任务...
2021-07-04 13:44:43
573
原创 csv 处理换行符号
package util;import org.apache.commons.io.FileUtils;import java.io.File;import java.io.IOException;public class CsvDealUtils { public static void main(String[] args) throws IOException { csvDealSpecial(); } /** * 处理 csv存在换行
2020-11-08 20:04:23
1654
4
原创 calcite learn
创建模型,model.json自定义SchemaFactory,CsvSchemaFactory自定义Schema,CsvSchema自定义Table,CsvTable、CsvScannableTable自定义Enumerator,CsvEnumerator
2020-10-06 20:54:59
262
1
原创 零次拷贝学习
四次拷贝mmap拷贝sendfile零拷贝技术都是减少数据在用户空间和内核空间拷贝技术实现的,但是有些时候,数据必须在用户空间和内核空间之间拷贝。这时候,我们只能针对数据在用户空间和内核空间拷贝的时机上下功夫了。Linux通常利用写时复制(copy on write)来减少系统开销,这个技术又时常称作COW。...
2020-06-24 11:32:31
182
原创 flink sql 转换
将 SQL文本 / TableAPI 代码转化为逻辑执行计划(Logical Plan)Logical Plan 通过优化器优化为物理执行计划(Physical Plan)通过代码生成技术生成 Transformations 后进一步编译为可执行的 JobGraph 提交运行row_number() over 求max min的方式,流式场景求解极大 / 小值的最优操作是通过维护一个 size 为 N 的 minHeap / maxHeap。由实现反推出我们需要在优化器上新增一条规则,在遇到 RO.
2020-06-23 10:22:17
1363
原创 flink-checkpoint 目录内容
_metadata:保存了state 的句柄,JM 解析元数据文件,做一些校验,将信息写入到 zk 中,然后准备从这一次 Checkpoint 中恢复任务其余小文件:是 state 数据,由各 Task 在触发 checkpoint 的时候上传,恢复的时候,JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state...
2020-06-05 14:20:58
2091
原创 flink blink_planner array解析,列传行
CREATE TABLE sourceTable ( event_time_line array<ROW ( `rule_name` VARCHAR, `count` VARCHAR )>) WITH ( 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.startup-mode' = 'earliest-offset', 'connector.topic'
2020-05-20 20:22:52
762
原创 Pravega 学习
目前lkappa架构,对历史数据的处理不是很好,Pravega 的 Stream 可以有无限制的数量并且持久化存储任意长时间,使用同样的 Reader API 提供尾读 (tail read) 和追赶读 (catch-up read) 功能,能够有效满足两种处理方式的统一目前还不是很清楚这个优秀的产品能够有什么作用,还需要学习,有知道的大佬,可以解释下吗?为什么出现这个产品,体会还不是很深。...
2020-05-09 19:09:33
987
原创 flink job 提交源码流程
client 算子变成streamGraph,jobGraphjob jobGraph生成executionGraphjob启动,通过driver端将算子转为StreamGraph,通过一些chain条件将可以chain的顶点chain在了一起转化成了JobGraph通过RPC将整个jobGraph向jobmanager提交...
2020-05-06 19:08:52
326
原创 flink exactly once
public enum CheckpointingMode { EXACTLY_ONCE, //BarrierBuffer AT_LEAST_ONCE;//BarrierTracker private CheckpointingMode() { }}
2020-05-05 11:43:55
176
原创 flink-dump-fullgc log打印分析
dumpenv.java.opts: -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=75 -XX:+UseCMSInitiatingOccupancyOnly -XX:+AlwaysPreTouch -server -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/load/...
2020-04-29 10:46:54
1447
原创 flink ddl 服务器 报错
ddl时候flink-connector-kafka_2.12 ddl时候需要provided 线上时候flink-sql-connector-kafka_2.12 compile 线上时候lib添加jar flink-sql-connector-kafka_2.12 flink-json
2020-04-15 21:14:38
183
原创 堆排序 快排
堆排序关系parent = (i-1) / 2left = 2i + 1right = 2i+2public class HeapSort { public static void main(String []args){ int tree [] = {10,3,4,9,11}; int n = 5; heapSort(tree...
2020-03-03 12:17:59
181
原创 flink ddl kafka mysql
需要的jar <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-sql-connector-kafka_2.12</artifactId> <version>${fl...
2020-03-01 10:37:23
740
原创 FlinkSQL中的回退更新-Retraction
flinkSQL表转流Flink 提出 Stream <–> Dynamic Table 之间是可以等价转换的需要引入Retraction机制toAppendStream 只支持inserttoRetractStream 其余模式都可以持续更新...
2020-02-24 13:59:17
2234
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人