专栏网址:https://blog.youkuaiyun.com/polarisrisingwar/category_13090713.html
专栏文章目录:专栏《大模型+RAG原理与实战》目录
1. 大模型简介
在本专栏中,我们说的 “大模型”“语言模型”“大规模预训练语言模型”“大语言模型” 都是一样的东西:通过人工智能技术构建了一个软件/网站,用户可以与它对话,或者加上互动操作,让软件执行推理、搜索或其他功能,最终返回文字(如问题的回答)、图片甚至文件等内容。
实现这个交互功能核心的机器学习算法模型,现在用的都是大模型。
大模型现在回答问题的能力越来越强了,大家已经开始担心自己的工作被大模型取代了。本专栏旨在分享结合RAG(检索增强生成)技术提升大模型回答效果的理论与技术,从而加速大模型取代大家工作的过程。
通过统计学习方法,根据训练数据来构建数学模型解决方式来称为机器学习,机器学习中使用神经网络的方法称为深度学习,现在所说的大模型一般是深度学习中用Transformer架构构建超大规模参数模型的方法。
深度学习中的数据可以是文字、图像、音视频、结构化数据(一般指的是像表格一样的,值都是数字)、图/网络、时间序列等。自然语言处理是让计算机理解、解释、生成自然语言的技术,本专栏就主要涉及对语言文字的处理,对其他模态(图像、音视频等)的涉及程度将根据后续安排决定。
2. 常用大模型使用教程(上)
1. 常用大模型网址
- ChatGPT
https://chatgpt.com/(注意这个网址在国内无法直接上)

- DeepSeek
https://chat.deepseek.com/

- (腾讯)元宝
https://yuanbao.tencent.com/

- Kimi
https://www.kimi.com/

- (字节)豆包
https://www.doubao.com/chat/

- (谷歌)Gemini
https://gemini.google.com/app(注意这个网址也无法在国内直接上)

实话说我感觉谷歌的UI确实比别人家好看一点啊,感觉很简洁美……
2. 基本对话
最简单的使用大模型的方法就是输入文本和其他内容,然后等待大模型返回文本。
比如在生活中遇到什么问题,就可以向大模型进行提问(需要注意大模型的答案不一定准确适用,但可以迅速获得一个比较完整的答案作为参考,还是很有价值的):

现在大模型网站的格式基本都长这样:中间是对话区域,可以与大模型进行多轮对话,在输入框里除输入文本外,还可能可以语音输入、切换模型、输入图像和文件、设置网络搜索或推理、深度研究等特殊模式;左边是新建聊天、聊天历史和延伸功能。

1. 比较常见的输入框附加功能
- 语音输入
- 语音模式:大模型以语音形式与你对话
ChatGPT的中文语音非常诡异啊 - 输入图片
需要注意的是DeepSeek虽然可以上传图片,但并不会理解图片本身的含义,而只会识别图片中的文字(即对图片执行OCR操作),将图片中的文字输入到大模型中 - 生成图片
- 添加文件
需要注意的是,现在的大模型添加文件几乎都是只能识别文件中的文字,因此只能接受纯文本文件或提取word、PDF等文档中的文字来输入到大模型中 - 设置网络搜索
- 切换深度研究(deepresearch)/推理(reasoning)/非推理模式
这三种模式简单来说就是思考深度逐渐降低,运行速度逐渐增快。
一般来说,对于需要推理的数理、算法类问题,建议使用推理模式;对于日常的文章生成、简单对话,建议使用非推理模式;如果需要模型对复杂内容进行调查研究,最终反馈出一个完整的结论,建议使用深度研究模式
推理这个术语并不是统一的:ChatGPT叫“思考”模式,Kimi叫“长思考模式”,豆包叫“深度思考”模式 - 切换学习模式:这个功能在你想要简单入门一个新领域时很有用。大模型会教你如何学习一项知识
- 切换模型
- 问答示例:会给几个问答示例,点击就能直接提问。这个估计是给不会用AI的用户作参考的
- 元宝:

- Kimi:

- 豆包:

- 元宝:
| ChatGPT(免费版) | DeepSeek | 元宝 | Kimi | 豆包 | Gemini(免费版) | |
|---|---|---|---|---|---|---|
| 语音输入 | √ | √ | √ | |||
| 语音模式 | √ | √(手机APP可以打电话) | ||||
| 输入图片 | √ | √(但只能识别文字) | √(只有混元模型能理解图片) | √ | √(还可以上传谷歌相册中的图片) | |
| 生成图片 | √ | √(只有混元模型能生成图片) | √ | √ | ||
| 添加文件 | √ | √ | √(除本地文件外还能上传腾讯文档) | √ | √(可以上传到云盘) | √(还能上传谷歌云盘中的文件) |
| 设置网络搜索 | √ | √ | √(元宝可以搜索到微信公众号内容,算是腾讯系独有的优势了) | √ | √ | √(好像只有深度研究模式中可以搜索网络) |
| 切换深度研究模式 | √ | √ | √ | |||
| 切换推理模式 | √ | √ | √ | √ | √ | √(免费版在切换模式的入口切换推理模式) |
| 切换学习模式 | √ | √ | ||||
| 切换模型 | √(混元 / DeepSeek) | √(K2 / K1.5) |
模型特殊功能:
- ChatGPT:智能购物,画布(要求大模型进入编程环境,在“画布”中写作和修改代码)
- 元宝:工具(包括写作、编程、解题三类):



- Kimi
- OK Computer模式:可以在沙箱里进行更多模拟操作,来实现复杂任务
- PPT:可以做PPT
- 可以设置常用语作为prompt:

- 豆包
- 截图提问
- 豆包的写作、图片生成、编程、翻译功能都可以打开特定界面来实现,效果有点类似于ChatGPT的画布:

- Gemini
- canvas:效果跟ChatGPT画布类似,用于深度研究和小说写作等创作工作,结果文档会用专门的文档形式UI来呈现,比较美观,可以交互,而且可以直接打印之类的:

- 图文并茂
- canvas:效果跟ChatGPT画布类似,用于深度研究和小说写作等创作工作,结果文档会用专门的文档形式UI来呈现,比较美观,可以交互,而且可以直接打印之类的:
2. 比较常见的左栏延伸功能
- 搜索聊天
- 智能体(agent):可以理解成在大模型的对话能力基础上,结合了各个专业领域上自己的能力(包括API、知识库和特殊prompt),从而能够实现一些专业能力的工具。比如Scholar AI就集成了学术论文搜索能力,canva就可以直接画出能在canva网站上继续修改的图片,wolfram则集成了wolfram网站的数值处理能力。
在ChatGPT中叫GPTs,定义为探索并创建结合了指令、额外知识和任何技能组合的自定义版本的 ChatGPT。只有ChatGPT Plus能创建智能体。
在元宝中叫应用,Gemini中叫gem。
Kimi现在放在对话框里的OK Computer、PPT模式其实也可以算是智能体。之前Kimi的智能体集成平台Kimi+是直接展示在Kimi页面入口的,现在独立出来了,不知道未来是怎么规划的:https://www.kimi.com/kimiplus-square/zh
对智能体我以后将专门写博文来详细介绍,本专栏内只简单带过。 - 项目:可以将会话记录整理到一个个项目中,方便管理
| ChatGPT(免费版) | DeepSeek | 元宝 | Kimi | 豆包 | Gemini | |
|---|---|---|---|---|---|---|
| 搜索聊天 | √ | √ | ||||
| 使用智能体 | √ | √ | √ | √ | √ | |
| 创建智能体 | √ | √ | √ | |||
| 项目 | √ | √ |
模型特殊功能:
- ChatGPT:聊天(这是ChatGPT最近在部分地区刚开放的功能,可以加其他用户和ChatGPT进群聊天1)
3. 其他功能
- 用户自定义全局prompt:这个功能就是用户可以自己设置让大模型如何回答的prompt,就不用在每次会话都单独设置了
在Gemini中叫“给 Gemini 的指令” - 用户个性化历史:这个功能是允许大模型记录用户以前的会话,从而更好地为用户未来提供服务
豆包的叫“个性化内容推荐”,在设置 - 账号设置中开关:

| ChatGPT(免费版) | DeepSeek | 元宝 | Kimi | 豆包 | Gemini | |
|---|---|---|---|---|---|---|
| 自定义全局prompt | √ | √ | ||||
| 个性化历史 | √ | √ |
此功能虽然在大模型网站非常特殊,但在聊天平台界就显得平平无奇,此事在纸飞机亦有记载……
以前QQ也开放过创建智能体功能,不过最近好像禁掉了。
微信官方应该是一直没有开通拉AI机器人进群的功能,但是民间有不少可以实现这个功能的方案。不过微信官方并不支持,事实上禁了不少。 ↩︎
1万+

被折叠的 条评论
为什么被折叠?



