- 博客(93)
- 资源 (1)
- 收藏
- 关注
原创 一文读懂数据建模:概念、方法与实践全解析
数据建模是数据分析的核心环节,通过定义实体、属性和关系,构建结构化数据框架。其价值体现在优化数据质量、支持决策、减少冗余及提升效率。主流模型包括概念、逻辑和物理三层架构,建模技术涵盖传统方法(层次、关系、网络模型)与现代技术(维度、实体关系、数据保险柜和图模型)。实施步骤从识别关键实体到验证模型,最终形成可扩展的数据体系。良好的数据建模能解决非结构化数据痛点,确保报告一致性,为业务提供可靠洞察。
2025-07-03 14:06:40
677
原创 Colab拯救没资源还想玩AI的你
新建项目与设置运行类型新建一个 Colaboratory 项目。进入项目后,在菜单栏中找到 “运行时” 选项,点击 “更改运行时类型”,选择 GPU。这一步很关键,因为 GPU 能极大提升 AI 运算速度,而 Colab 免费提供了 GPU 资源,我们当然要充分利用起来。挂载谷歌云盘Google Colab 是一个强大的平台,可用于学习和快速开发 Python 中的机器学习模型。它基于 Jupyter 笔记本并支持协作开发。团队成员可以共享和同时编辑笔记本,甚至可以远程编辑。
2025-04-29 10:53:26
1004
原创 AI时代一定要会的一种画图方式Mermaid
随着AI技术的快速发展,数据可视化成为了理解和传达复杂信息的关键。Mermaid是一个基于JavaScript的图表绘制工具,它使用户能够使用文本定义图表,并将其渲染为美观、清晰的图形。这种简洁且功能强大的语法非常适合在文档中嵌入流程图、甘特图、序列图等,无需依赖复杂的绘图软件或具有专业技能的设计人员。Mermaid让非技术人员也能轻松创建专业的图表。在AI深度融入工作与生活的今天,掌握Mermaid语法就像掌握了一门高效的“可视化语言”。
2025-04-25 13:41:15
37130
原创 Dify+RAGFlow强强联合打造知识库
就目前而言RAGFlow在知识库方面还是比dify强的,因此如果dify能和ragflow联合使用,那么效果岂不是更强,现在教程来了。文章首发公众号 DataSpeed欢迎关注。
2025-04-25 13:39:06
37039
原创 本地部署Vanna实战,快速解决NLP2SQL
vanna可以结合自己的数据库以及向量库进行先训练后问答,这一块儿可以参考官网https://vanna.ai/docs/app/,官网还提供了使用 Vanna 构建一个网站应用程序或者一个应用程序接口(API)https://github.com/vanna-ai/vanna-flask,欢迎大家一起探讨学习。
2025-04-15 10:32:27
39423
2
原创 大模型工具开发Dify:二次开发的实战指南
在开源领域的激烈竞争中,Dify 脱颖而出,如今它在 GitHub 的 Workflows 主题排名中独占鳌头,收获了高达 87.5K 的 Star 数量。而且,从当前的增长趋势来看,这一数据还在持续攀升,其热度不断高涨,受到了越来越多开发者的关注。这一成绩不仅彰显了 Dify 自身的技术魅力与价值,也预示着它在未来的开源生态中,极有可能发挥更为重要的作用,引领行业发展潮流。
2025-04-01 09:00:00
41477
2
原创 Dify开发实战-自制插件消除 DeepSeek 标签冗余
在使用 Dify 搭配 DeepSeek 大模型的过程中,许多用户常常觉得 DeepSeek 的 think 标签有些多余。借此契机,本文将详细演示 Dify 插件开发,以帮助大家解决这一困扰。本次项目的目标是实现对 DeepSeek 模型节点输出内容的清洗。
2025-03-27 08:45:00
40399
3
原创 Dify+AstrBot助力企业无门槛使用AI
在企业使用大模型时,是否遭遇过技术门槛高,导致部署和应用困难重重?多人协作使用时,网络问题是否频繁出现,影响使用体验和工作效率?从集成角度看,将大模型集成到企业现有的信息平台,是不是常因复杂的接口和架构而难以推进?
2025-03-21 09:15:00
39821
原创 深入解读大模型开发工具Dify--底层数据存储
dify在使用pg时,使用了两个库dify与dify_plugin。多类型数据库协同:Dify 采用了 PostgreSQL、Redis、文件存储和向量数据库的多层次存储架构,实现了数据的高效管理与快速访问。数据隔离与安全:通过 dify 和 dify_plugin 两个独立数据库的设计,确保了核心数据与插件数据的有效隔离,提升了系统的安全性。灵活部署配置:支持 Docker 部署和源码部署两种模式,通过环境变量配置数据库连接信息,提供了高度的部署灵活性。性能优化机制。
2025-03-19 08:45:00
44971
3
原创 开源大模型工具对比
大模型(Large Language Model, LLM)是基于海量数据训练的深度学习模型,通常包含数十亿至数万亿参数,能够理解和生成自然语言,并完成复杂任务(如文本生成、代码编写、逻辑推理等)。规模庞大:参数规模远超传统模型,学习能力更强;通用性:通过预训练适应多种下游任务;涌现能力:在复杂场景中表现出未显式训练的推理能力。典型代表:GPT-4、Claude、LLaMA。LangFlow是一款低代码、可视化的 AI 应用构建工具,专为快速搭建和实验 LangChain 流水线而设计。
2025-03-11 11:02:34
40224
原创 大模型开发工具Dify-入门篇
Dify是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和LLMOps的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。
2025-03-11 11:01:13
40841
原创 Datahub血缘实战解析
在数据处理与管理的领域中,相信不少朋友和我面临着相似的架构场景:采用OLAP数据库+任务调度的方式 搭建基础架构。随着使用的深入,越来越多的人也意识到了血缘的重要性,没有血缘的大数据平台,会随着业务的复杂而混乱不堪。为了更好地应对这些挑战,提升数据管理的效率和质量,引入专业的元数据管理与数据血缘工具显得尤为重要。DataHub 就是这样一款强大的工具,它能够有效弥补现有架构的不足,助力我们更高效地管理数据。如果你还不太了解 DataHub,强烈推荐先阅读上一篇入门文章。
2025-03-03 08:58:44
40755
3
原创 从零训练你的SQL专家:基于DeepSeek的实战指南
最近都在聊大模型做本地知识库的事情,这只是应用的一种,很多人都在想大模型如何做更专业的事情。作为数据人自然也在想大模型如何在大数据方面发光发热。比如,大模型如何做SQL类型的专家呢?这种情况下,仅仅是知识库已经无法满足了,然而deepseek这样的大模型也不够用,因为他是通用性大模型,需要训练之后才能更好用。今天就来聊聊如何训练你的大模型。关注公众号DataSpeed,回复训练大模型可以获得本次训练的所有代码。参考本文,有合适的数据集,理论上你可以训练任何领域的AI专家。
2025-02-20 09:00:00
40680
原创 探索大模型|自然语言直接查询数据库
虽然demo做的不复杂,不过这个事却值得深思,要知道AI学习的速度是十分快的。不久之后,可能是用户直接用自然语言描述获取结果数据集,而不用关心中间的实现过程。以后SQLBoy这个岗位恐怕是有点危险了。起码一般的sql交给大模型是没问题的,在业务复杂的情况下,麻烦的是把业务情况喂给大模型,经验丰富的sqlboy可能在初期是占优势的。依次类推,代码开发等技术工作可能也会这样。类似的工具实际已经有了,不过基本都是商业化产品,比如chat2DB、Azure SQL 他们在这条路上已经走了很远。
2025-02-14 09:00:00
40830
4
原创 DeepSeek从本地部署到无限调用API
总结来说上述的方式不仅针对deepseek,更确切的来说是针对ollama的,只要ollama能安装的大模型都可以用,参考ollama官网。技术层面:降低开发难度,开发者不用了解模型内部复杂架构和训练过程,只需关注应用。还便于集成扩展,能与各类系统、平台和编程语言轻松集成,为业务添加智能功能。同时,可及时获取模型更新,享受优化改进。资源管理层面:节省计算资源,无需购置和维护昂贵计算设备,按需使用云端服务即可。成本控制也更灵活,能按需付费,避免资源浪费。业务应用层面。
2025-02-07 09:00:00
4838
原创 基于DeepSeek打造团队知识库
随后详细说明添加知识库、团队成员的步骤及权限设置要点,最后进行测试,展示新用户基于知识库提问的效果,为团队利用 DeepSeek 搭建知识库提供了清晰指引。Deepseek 最近特别火爆,他的能力不言而喻,很多人做了基于deepseek做个人的知识库,那么团队中如何一起使用呢?假如我是公司某团队的领导,我想把知识库分享给大家,让deepseek基于知识库回答大家的问题,岂不是很爽。总体来说,需要建用户组,把新用户添加到用户组中,给用户组权限,在模型中给用户组权限。部署后,进入web页面,恭喜你完成过半了。
2025-02-06 14:17:06
2597
9
原创 数据血缘 | 图数据库,一个绕不开的话题
本篇文章通过剖析数据血缘的挑战,展示了图数据库,尤其是**Neo4j**,如何凭借其高效的图结构模型和强大的查询能力,解决这些难题。文章涵盖了从Neo4j的基本操作到实际案例中的应用,以及如何利用Cypher查询语言直观管理数据血缘,最后分享了在实际开发中的最佳实践
2024-12-18 09:15:00
40864
1
原创 数据血缘 | 探索SQLGlot的实用性与解析技巧
SQLGlot 可以让你对代码库中的 SQL 实现程序化理解。它能够创建测试和检查,以深入分析你的 SQL,并在源头识别错误或反模式。SQLGlot 提供了标准化不同数据仓库中 SQL 结构的 API,使它成为开发者的多用途工具。目前已经支持24种不同的sql语法了,就凭这个,也太值得用了。这是它的git地址,目前已经6.8K stars。
2024-12-12 14:48:31
41924
3
原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(二)
导读:在这篇文章中,我讨论了如何使用 conda 管理 Python 项目环境,以避免依赖冲突,然后基于 Flask 创建一个简易的 DataX 数据血缘工具。在 requirements.txt 中指定依赖,创建一个简单的 Flask 应用,以 /query 接口通过解析 DataX 的 JSON 和 SQL 配置来获取表的任务信息。核心解析逻辑放在 DataxParser 类中。开发中探讨了提高查询效率的可能性,比如提前解析并存储数据。
2024-12-02 10:00:03
40312
原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(一)
如何使用 Python 构建简易的 DataX 数据血缘工具,以便解决 DataXWeb 在查询表上下游关系时的不足。
2024-11-29 10:18:54
40621
原创 doris udf -- 避免使用递归CTE
在部门表里有 部门id (dept_id) 和 父部门id (parent_id) ,父部门id同时也是部门id。现在要查部门id下所有的子部门id,但是不知道部门层级,部门关系可能也会调整。
2024-11-14 16:06:02
1270
1
原创 linux初始化-jdk maven docker一文搞定
一问搞定linux初始化,安装jdk maven docker docker-compose
2023-08-10 17:39:28
347
原创 DataEase二开记录--踩坑和详细步骤(四)改admin账号密码
考虑到原来默认admin账号的密码过于简单,需要修改,但是DataEase已经使用了,不能影响原来的数据,因此不能更换镜像。相关文章,有需要的话 可以看看前面几篇DataEase二开记录–踩坑和详细步骤(一)DataEase二开记录–踩坑和详细步骤(二)DataEase二开记录–踩坑和详细步骤(三)增加权限功能。
2023-05-15 14:11:07
3607
2
原创 flinkSQL Table转DataStream
业务中sql可能不完全满足使用,需要转换成DataStream 更灵活一些,所以需要互相转换,发挥各自的优势。
2023-04-24 11:11:12
1244
原创 FlinkSQL kafka完整案例 可直接复制使用
完整案例,可以直接使用。flinksql 消费kafka整体来说是十分简单好用的,使用时门口较低,实时性又高
2023-04-23 17:12:05
3373
2
原创 DataEase二开记录--踩坑和详细步骤(三)增加权限功能
这篇文章是关于dataease的权限管理的,开源版本是没有权限管理的,任何账号看到的东西都一样,显然,这不能满足正常的使用。
2023-03-24 16:57:32
6281
18
原创 DataEase二开记录--踩坑和详细步骤(二)
最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。
2023-03-14 11:17:13
5600
flink-sql-connector-mysql-cdc-2.2.0.jar
2022-11-18
mysql2hbase.7z
2021-07-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人