- 博客(441)
- 收藏
- 关注
原创 SQL server 判断表中是否有字段
由于不能保证所有环境中的kuout表都包含[Mtype]字段,我们需要,如果存在就包含它,否则用NULL或默认值代替。
2025-11-24 17:24:33
83
原创 在streampark运行paimon-flink-action-1.20.0.jar
1、上传相关jar包到 /opt/flink-1.20.0/lib。2、重启streampark。
2025-11-13 11:22:53
617
原创 Flink1.20 standalone 安装部署
下载 .tar.gz 文件(如 OpenJDK11U-jdk_x64_linux_hotspot_11.0.23_9.tar.gz)清华镜像站同步了 Adoptium / Eclipse Temurin 的官方构建,包含 JDK 11。打开链接 → 选择 11/ → jre/ 或 jdk/清华大学开源软件镜像站(强烈推荐)进入对应平台目录(如 x64/)
2025-11-10 10:23:43
298
原创 物化视图(Materialized View)是数据库中的一种特殊类型视图,它实际上存储了数据的物理副本。
物化视图(Materialized View)是数据库中的一种特殊类型视图,它实际上存储了数据的物理副本。与普通视图不同,普通视图仅存储查询定义,并在访问时动态执行查询来获取数据,而物化视图则是预先计算并存储查询结果,从而可以加快查询速度,尤其适用于处理复杂查询或大数据量的情况。
2025-11-10 08:33:11
242
原创 StreamPark 安装部署
本文讲解的是以手动的方式打包镜像,首先按照如下命令下载 StreamPark 源码,切换分支后把打包好的安装包放到。下载时间比较长 需要耐心等待。
2025-11-05 14:50:28
360
原创 PAIMON+STARROCKS 学习
Apache Paimon 是一个开源的、面向流计算的湖仓存储格式,源于 Apache Flink 社区(原 Flink Table Store)。它的核心创新在于将湖存储格式与日志结构合并树(LSM-tree)技术融合,为数据湖带来了强大的实时流式更新能力,这使得高吞吐、低延迟的数据摄取、变更日志追踪和高效的即时分析成为可能。
2025-11-04 11:20:26
1055
原创 Schema Evolution(模式演化)
是指在数据系统(如数据库、数据湖、消息队列、序列化框架等)中,随着时间推移对数据结构(即 schema)进行变更的能力。良好的 Schema Evolution 支持允许系统在不中断现有服务或破坏向后/向前兼容性的前提下,安全地添加、删除或修改字段。
2025-11-04 09:34:03
443
原创 数据湖技术学习
Apache Paimon 是一个开源的、面向流计算的湖仓存储格式,源于 Apache Flink 社区(原 Flink Table Store)。它的核心创新在于将湖存储格式与日志结构合并树(LSM-tree)技术融合,为数据湖带来了强大的实时流式更新能力,这使得高吞吐、低延迟的数据摄取、变更日志追踪和高效的即时分析成为可能。
2025-10-28 17:27:05
674
原创 知识图谱的学习
用户画像作为一种重要的数据分析方法,已经在精准营销、内容推荐、用户需求预测等领域得到了广泛应用。传统的用户画像多依赖单一数据源,难以全面刻画用户特征。而知识图谱因其强大的语义建模和关系挖掘能力,成为构建精准用户画像的重要工具。知识图谱通过整合多源异构数据,构建语义关联和多维关系网络,不仅提高了用户画像的精准性,还增强了其动态更新能力和可解释性。1、知识图谱再用户画像中的作用。
2025-10-27 13:44:01
147
原创 采用 Trie 树结合 RoaringBitmap 技术,构建高效的子串倒排索引
Trie 树负责“快速找到可能的词”,RoaringBitmap 负责“高效记录和计算这些词对应的实体”,两者结合,实现海量业务维度数据下的高性能语义匹配。
2025-10-27 10:40:49
290
原创 NER流程 是指 命名实体识别(Named Entity Recognition)的处理过程
NER流程 = 让AI“圈出”句子中的重点信息,并告诉它是哪一类(比如是公司?产品?还是时间?),是实现自然语言理解(NLU)和智能问答的关键第一步。
2025-10-27 10:28:56
279
原创 ImmutableList.of() 是 Google Guava 库 提供的一个静态工厂方法,用于创建一个不可变的(immutable)列表。
表达式含义创建一个不可变列表,包含 A 和 B不可变不能增删改适合常量、配置、函数返回值、防止副作用。
2025-10-20 10:23:20
376
原创 ChatBI的相关学习
如果用RAG的方法,对它做切片,做向量化,可能效果上就会更好,相当于是把大模型的能力增强,但Agent一定程度上相当于丰富大模型的能力,因为大模型其实现在狭义上是大语言模型,在自然语言里面可能有比较强的能力,但是要扩展到自然语言之外,如一个常见的场景,就是订机票、订酒店,那它就不是一个单纯的NLP的任务,用agent的方式,可以用大模型的编排能力,工具助手来实现一个丰富大模型的能力的目的。重点是看数据的表达能力,通过数据切片、向量化、ES召回、实体抽取技术,形成输入大模型前的数据表达服务能力。
2025-09-29 14:20:34
749
原创 快手BI 学习
提供模糊问题的澄清和确认机制,解决无法同时查询的指标维度或存在歧义的问题。数据层面:确保高质量的元数据接入,通过元数据预处理和元数据质量评估;平台层面:实施精细化流程处理,拆解粗粒度流程,把每一步做到极致,例如:多路召回、重排序、多次大模型交互等优化,实现更高效的智能化操作。数据方面-数据规模庞大(数十万数据集、数千万维值等),数据质量参差(指标定义不一致、命名随意等),数据重复与相似度高(如同一个数据集存在数百个GMV相关指标等)。模型方面:通用大模型存在幻觉问题,生成不稳定,性能和成本难以平衡。
2025-09-29 10:29:24
147
原创 滴滴ChatBI 学习
另一种路径则是以指标平台为中心,我们可以看到许多新兴的 BI 创业公司倾向于采用这种方式,他们更注重 AI-Native,即先建立指标平台,再在此基础上搭建 BI 产品。通过 LLM 大模型的意图识别能力,将以往的增强分析功能都串联了起来,用户现在可以通过自然语言进行数据的解读、预测和异动分析。DSL 至少能够对这些复杂的查询进行较好的解析和处理,此外,对于模糊指标的处理,也有部分可以在此阶段进行一定程度的优化。接下来,整合后的问题会进入意图识别的小模型,该模型负责将问题的意图归类。
2025-09-29 10:09:09
967
原创 ChatBI 学习
首先借助 LLM 构建 entity-column 知识图谱,实体包括两类,一类是抽象实体,另一类是列实体,抽象实体包括了业务概念、抽象的维度、指标大类等,人工可以 Review 并修改实体和关系的定义。可将自然语言直接转为标准 SQL 查询,便于集成,且通过对多表 JOIN、聚合等操作的支持,它能够灵活应对复杂的业务查询需求,但因 SQL 语法与逻辑复杂,基于 LLM 生成的 SQL 很难保证业务逻辑的绝对准确。三层聚合数据粒度分别从细到粗,定位不同的产品用途,可以支持不同的查询需求。
2025-09-28 17:27:37
1017
原创 ChatBI + DeepSeek 学习
ChatBI 是一款基于大语言模型(LLM)打造的智能数据问答产品,提供意图识别、知识召回、问题理解、数据查询、可视化生成等能力。用户通过自然语言提问,便可获取数据分析结果,实现敏捷决策。有效解决了传统BI的灵活性和门槛问题;DeepSeek-R1模型通过强化学习提升推理能力,支持复杂任务处理,并且具有低成本和高效率等特点。
2025-09-28 15:08:30
859
原创 ChatBI的学习
最后大模型生成的逻辑 SQL 会进入我们后处理模块,这个模块实现会对一些幻觉问题(比如字段或者表名不存在等)进行重试,接着会把逻辑 SQL 转换成我们定义好的 DSL 结构,有了这个 DSL 以后就可以对结果做一些校正澄清,也就是我们的智能感透出功能,比如用户问”东的销售额“的时候,我们发现“东北”和“华东”里都包含了”东“这个关键词,会提示用户让用户选择确认。另外用户也可以配置一些后处理的规则,比如添加默认筛选器、返回指定字段等,这些自定义的规则会在规则引擎中进行处理最后生成一个完整的 DSL。
2025-09-26 10:58:43
970
原创 DAAS SAAS PAAS 区别
、SAAS(软件即服务)和 PAAS(平台即服务)是云计算中不同层级的服务模式。它们之间的核心区别在于提供的服务抽象层次和用户需要管理的范围。这里的DaaS(桌面即服务)更接近于SaaS,但提供的是一个完整的操作系统环境。以下将分别对比这两种DAAS与SaaS、PaaS的区别。
2025-09-26 10:07:52
552
原创 Text2DSL(Text-to-DSL)技术是将自然语言转换为领域特定语言(DSL)及 在ChatBI中的应用
在当前的自助分析BI产品中,用户可以在一张报表内配置多个跨数据集的指标,例如“通话次数”和“订单成交量”,这些指标存储在不同的数据集中,并且每个指标支持多个实时过滤条件。对于后者,我们会在SQL查询得到数据后,重新组装Prompt,再次利用大模型进行语义理解分析,并根据用户的提问提供针对性的回答。Text2DSL方案同样面临挑战:基于Text2DSL搭建的ChatBI需要依赖成熟的指标体系,而且查询的灵活性和扩展性受限于现有指标和维度,本质上是报表搭建参数智能检索召回后的自动化数据查询流程。
2025-09-26 10:04:47
1092
原创 Kotlin
*Kotlin** 是一种现代、简洁、安全的**静态类型编程语言**,它运行在 **Java 虚拟机(JVM)** 上,也可以编译成 **JavaScript** 或 **Native 代码**(用于 iOS、桌面、嵌入式等),实现跨平台开发。它由 **JetBrains** 公司(开发 IntelliJ IDEA 的公司)于 2011 年首次发布,并在 2017 年被 Google 官方宣布为 **Android 开发的首选语言**。3. **跨平台开发(Kotlin Multiplatform)**
2025-09-01 13:17:59
552
原创 MCP (Model Context Protocol) 学习
(LLMs)能够与外部的数据源和工具实现无缝交互。MCP就像是为AI提供了一个“通用插头”,使得这些智能模型可以像我们使用USB接口一样,轻松连接到各种不同的设备和服务上。(Model Context Protocol),是由。推出的一种开放标准协议。
2025-09-01 11:34:47
188
原创 ERNIE 学习
ERNIE 4.5作为百度ERNIE系列的最新力作,在技术架构上实现了多项重大突破,特别是在混合专家模型(MoE)、超长上下文处理和多模态融合方面展现了卓越的技术创新。ERNIE 4.5采用了创新的MoE(Mixture of Experts)架构,与传统的密集Transformer架构形成鲜明对比。ERNIE 4.0实现了真正的多模态融合,支持文本、图像、音频等多种模态的联合理解与生成。ERNIE 4.5采用了先进的混合专家模型架构,其核心设计理念是通过稀疏激活机制实现参数的高效利用。
2025-08-28 14:34:31
396
原创 SQL server 异常 出现错误 824
数据库文件损坏:数据库文件本身可能已损坏,导致读取操作失败。文件系统损坏:文件系统错误或损坏也可能导致读取失败。考虑分批处理大量数据操作。
2025-08-28 09:49:39
414
原创 SQL server 查看表的所有索引
EXEC sp_helpindex 'dwd_kuinlist_ext_three';EXEC sp_helpindex 'dwd_kuinlist_ext_two';
2025-08-18 10:34:21
395
原创 DataEase V2 社区版安装部署
一、下载安装包选择社区版下载下载后上传到 linux 的目录 (要求至少200G)二、在MySQL8中创建数据库# 创建DataEase库三、解压安装包四、修改配置文件。
2025-08-12 14:59:23
548
原创 AI Copilot
例如,GitHub推出的GitHub Copilot,它是一个强大的代码辅助工具,可以根据上下文自动补全代码片段,极大地提高了编程效率。"AI Copilot"通常指的是基于人工智能的副驾系统,这个概念可以应用于多个领域,比如软件开发、自动驾驶技术等。:AI Copilot也可以被设计用来辅助专业人士完成复杂的任务,比如医疗诊断、法律咨询等,通过提供数据支持、预测分析等功能增强决策的质量。简而言之,“AI Copilot”是指利用人工智能技术为用户提供辅助,提高工作或生活效率的一种系统或工具。
2025-08-11 10:19:23
2065
Doris 1.2.4.1 Dockerfile制作 init-fe.sh 和 init-be.sh
2023-08-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅