知识引擎和智能体平台助力大模型落地

莫叫石榴姐

已于 2025-04-06 17:07:08 修改

阅读量956

点赞数 28

分类专栏：收获不止一点文章标签：人工智能

于 2025-04-05 08:15:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/godlovedaniel/article/details/147004410

版权

收获不止一点专栏收录该内容

114 篇文章

订阅专栏

部分内容总结如下：

一、企业大模型场景落地的关注点和痛点规划：前期如何规划？

如何统一规划整体架构？
- 并发支持、响应速度
- 租用还是自建
- 算力需求多大
- 商用还是开源？是否全部采用 DeepSeek R1？
- 本地还是云端
- 统一规划还是各自尝试
- 服务于哪些业务目标
- 目标
- 大模型
- 算力
- 性能
- 数据安全性考量
- 总体多少预算

选型：技术路线怎么选？

如何做合理的技术选型？
对大模型的要求
- 是不是只要大模型就够了
- 需要大模型做微调
- 构建行业大模型
- 各类场景分别选用什么样的大模型合适
- DeepSeek R1 适合哪些场景？
落地方法
- 使用各种 RAG 技术做落地，还是需要融入图技术
- 问数应该是 Text2SQL，还是 Text2 指标？

落地：如何有好的效果？

如何做到结果可信
- 如何减少幻觉
- 如何保证结果可解释
如何做到效果好
- 为什么换一份数据效果不好
- 表格、图片效果如何
- 简单问题可以处理，复杂问题回答不了
- 可以做混合问答么，问答和问数融合在一起
如何保证数据安全性
- 数据权限

场景：如何选定高价值场景？

目标用户是谁，有什么痛点？
应该如何找场景？
需要哪些人参与
如何找到高价值场景
业务成熟度如何？
- 是否高频、重复、标准
数据情况如何？
- 已有数据，持续迭代情况？
技术成熟度
- 是否可以支持场景实现？

二、如何在 DeepSeek R1 时代更好地进行智能化转型

价值
包括成本投入降低、自主决策能力增强、自主可控安全、行业模型推理、蒸馏小模型推理、复用能力沉淀。
优势
有低训练 & 推理成本、推理能力佳、国产化、强化学习、领域知识蒸馏、低代码工具。
流程
从 DeepSeek R1 基础模型出发，经 SFT（有监督微调）和 RF（强化学习），利用行业推理数据，先构建带推理能力的行业大模型，再通过 SFT 得到带推理能力的专有蒸馏小模型。
数据
涉及行业公开数据和私有数据集。

三、知识构建：构建数据融合的统一语义层

企业数据

企业各类格式文档
企业数据库
企业指标系统
视频 / 图片数据
组织机构数据
外部各类数据（舆情、论文、专利..）
…

关系构建

数据血缘

根据结构化数据之间的关系，构建数据血缘链路
根据非结构化数据的关系，构建数据血缘关系，包括分片、段落、文档，知识库等

结构化数据图构建

根据元数据梳理自动化构图，比如社交网络、供应链等

非结构化数据

大模型进行实体关系抽取
根据抽取的反馈，大模型微调
基于微调大模型做实体关系抽取
人工校验并入图
视频 / 图片 / 音频：先结构化，再抽取关系

非结构化数据文档段落关系构建

根据段落抽取对应的图
包括分级目录结构
切片前后关系
文档片段与标签的关系

结构化非结构化数据关系构建

组织机构关系
作者与文档、代码、工作项的关系
文档引用关系
根据关系自动构建

以下是PPT内容：关注公众号“会飞的一十六”获取完整版PPT链接

往期精彩

Hive中TABLESAMPLE函数核心使用场景解析

银行业大模型标杆研究--工商银行

王二狗 vs 京东面试官：作为数仓工程师是如何和业务方沟通需求的？需求模糊或存在冲突时，你是怎么处理的？

Hive跨表JOIN性能优化：基于抽样统计的实战解决方案

憨憨雷军 VS 小米数据团队面试官：全量表变增量表，表名还需要区分吗？

3分钟学会Hive中TABLESAMPLE函数用法，轻松搞定数仓中抽样的用法。

莫叫石榴姐

博客等级

码龄11年

684
原创

8102
点赞

9080
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用【中山大学】

下一篇：: AI应用落地的最新工具集汇总

最新评论

SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
heheha_zj: 石榴姐，如果出现，在业务中，如果出现环比计算为截止到当前日期的环比比如，目前为9号，那就是 5月份1-9 和 6月份 1-9的环比，只能通过自连接的方式吧，还有就是假如5月份没有数据，那我们使用开窗函数的话，环比数据应该不对吧，除非保证上月一定会存在数据
正则表达式元字符总结
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
SQL高级技巧：如何准确求近30天指标？
莫叫石榴姐: 那样属于硬编码，这个是你提前知道是这样，如果过段时间变了呢？

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。