dian张-优快云博客

原创 spark join 算法

【代码】spark join 算法。

2024-10-03 13:18:27 201

原创 seatunnel win idea 本地调试

调试seatunnwl FakeSource，LocalFile。

2023-09-08 16:54:49 1427 1

原创 flink-1.17 log4j2 log推送

flink-conf.yml曾如下配置获取 yarn 的ContainerId。log4j.propertites增加如下配置。启动命令传入job_name。

2023-08-22 09:12:10 343

原创 fastjson2 JSONWriter.Feature介绍

JSONWriter.Feature介绍JSONWriter.Feature介绍FieldBased基于字段反序列化，如果不配置，会默认基于public的field和getter方法序列化。配置后，会基于非static的field（包括private）做反序列化。IgnoreNoneSerializable序列化忽略非Serializable类型的字段BeanToArray将对象序列为[101,“XX”]这样的数组格式，这样的格式会更小WriteNulls序列

2023-06-30 16:01:04 3097

原创识别jar是否含有某个类

识别某个目录下面的所有jar。

2023-05-18 14:47:32 299

原创 flink sql 下推类

【代码】flink sql 下推类。

2023-04-26 10:51:04 353

原创 hive 常用语句

【代码】hive 常用语句。

2023-01-11 20:25:57 156

原创 redis 数据结构

简单动态字符串双向链表、压缩链表压缩链表、哈希表压缩链表、整数数组压缩链表、跳表。跳表双向链表压缩链表哈希表整数数组。数据类型和底层结构的对应关系。底层实现的时间复杂度。

2023-01-11 20:23:36 97

原创 Redis数据结构

Redis

2022-11-23 16:13:13 240

原创 SR报错问题记录

sr版本2.1.10

2022-10-19 10:20:20 975

原创 SR动态分区清除数据

sr

2022-09-26 11:06:42 397

原创将一天数据分割成N个连续片段

将一天数据分割成N个连续片段

2022-09-19 09:21:51 279

原创 flink sql hbase kerberos 问题记录

当flink-conf.yaml配置了kerberos但是还遇到了无法连接问题，从下面代码可以看出是因为没有加载配置文件导致16020 failed on local exception: org.apache.hadoop.hbase.exceptions.ConnectionClosedException: Connection closed at org.apache.hadoop.hbase.ipc.IPCUtil.wrapException(IPCUtil.java:206) at org.

2022-05-23 17:01:25 913

原创 win系统编译 streamx 问题

操作系统版本;win11jdk版本：JDK 1.8.0_302scala版本：2.11.12代码分支：1.2.2-releasemaven版本:3.8编译命令：mvn clean install -DskipTests -Denv=prod错误详情:[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:4.3.0:compile (install-scala) on project streamx-

2022-04-14 09:57:10 884

原创 ernie2.0 训练代码

1.输入内容映射为ID-基于单个字进行映射paddlenlp.transformers.tokenizer_utils.PretrainedTokenizer.convert_tokens_to_ids def convert_tokens_to_ids(self, tokens): if tokens is None: return None if isinstance(tokens, str): if token

2022-03-11 16:46:43 513

原创情感分析处理-学习paddle

情感分析分为三个经典任务句子级情感分类（Sentence-level Sentiment Classification）、评价对象级情感分类（Aspect-level Sentiment Classification）、观点抽取（Opinion Target Extraction）

2022-03-01 15:30:14 490

原创 flink轮询写入local节点

1.通过分布式表解析数据库名字、local表名、对应集群名称SELECT engine_full FROM system.tables WHERE database = ? AND name = ? String cluster = matcher.group("cluster"); String database = matcher.group("database"); String table ..

2022-02-26 11:11:49 1051

原创 OLAP对比

OLAP产品 Kylin Druid Clickhouse Impala+Kudu Presto+HDFS ElasticSearch+Hbase 支持数据规模百TB~数十PB（几十亿~百亿）百TB~PB 百TB~PB（几亿~几十亿） TB~PB ...

2022-02-25 15:59:57 1043

原创 CK集群搭建

安装包下载wget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-server-21.4.3.21-2.noarch.rpmwget https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/clickhouse-common-static-21.4.3.21-2.x86_64.rpmwget https://repo.yandex.ru/clickhouse/rpm/stab

2022-02-25 15:28:39 1854

原创 clickhouse学习

nternal_replication：是否只写入所有replica中的一台true：代表了只写入shard内的一台，与ZooKeeper配合进行复制；false：代表了写入shard内所有的replica，与分布式表配合进行复制。遇到的问题点1nternal_replication：TRUECK集群，建立本地表，engine=MergeTree()，基于本地表建立分布式表，通过flink将数据插入到节点A的本地表，通过分布式表查询数据，只有节点A可以查得到，其余节点都无法进行查询,将本地表的e

2022-02-22 19:26:15 624

原创 conda 安装 pytorch

1.修改pip以及conda为国内源pip.ini[global]index-url=https://mirrors.aliyun.com/pypi/simple/[install]trusted-host=mirrors.aliyun.com.condarcchannels: - https://mirrors.aliyun.com/anaconda/cloud/ursky - https://mirrors.aliyun.com/anaconda/cloud/stackless

2021-12-06 13:51:20 1620

原创 flink sql 复杂json解析

{ "messageHeader" : { "messageID" : 2, "responseFlag" : -2 }, "messageBody" : { "time" : "2021-09-09T12:45:48", "vehicleBase" : { "id" : null, "vin" : null, "vehicleStatus" : 1, "chargeStatus" : 3 }, "a

2021-09-21 23:11:48 1498

原创 flink自定义connector

实现细节1.实现DynamicTableSourceFactory , DynamicTableSinkFactory 注册自定义connector resources目录下创建文件 org.apache.flink.table.factories2.自定义DynamicTableSource和DynamicTableSink 生成逻辑计划3.根据维表或者select功能实现LookupTableSource，ScanTableSource4.创建具体干活的查询任务...

2021-07-04 13:44:43 573

原创为什么需要打破双亲委派

未完待续

2021-02-26 22:56:48 710

原创 csv 处理换行符号

package util;import org.apache.commons.io.FileUtils;import java.io.File;import java.io.IOException;public class CsvDealUtils { public static void main(String[] args) throws IOException { csvDealSpecial(); } /** * 处理 csv存在换行

2020-11-08 20:04:23 1654 4

原创 calcite learn

创建模型,model.json自定义SchemaFactory，CsvSchemaFactory自定义Schema，CsvSchema自定义Table，CsvTable、CsvScannableTable自定义Enumerator，CsvEnumerator

2020-10-06 20:54:59 262 1

原创零次拷贝学习

四次拷贝mmap拷贝sendfile零拷贝技术都是减少数据在用户空间和内核空间拷贝技术实现的，但是有些时候，数据必须在用户空间和内核空间之间拷贝。这时候，我们只能针对数据在用户空间和内核空间拷贝的时机上下功夫了。Linux通常利用写时复制(copy on write)来减少系统开销，这个技术又时常称作COW。...

2020-06-24 11:32:31 182

原创 flink sql 转换

将 SQL文本 / TableAPI 代码转化为逻辑执行计划（Logical Plan）Logical Plan 通过优化器优化为物理执行计划（Physical Plan）通过代码生成技术生成 Transformations 后进一步编译为可执行的 JobGraph 提交运行row_number() over 求max min的方式，流式场景求解极大 / 小值的最优操作是通过维护一个 size 为 N 的 minHeap / maxHeap。由实现反推出我们需要在优化器上新增一条规则，在遇到 RO.

2020-06-23 10:22:17 1363

空空如也

空空如也