大模型简介+常用大模型教程（上）

PolarisRisingWar

已于 2025-11-29 20:12:15 修改

阅读量52

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大模型+RAG原理与实战文章标签：大模型大规模预训练语言模型 ChatGPT DeepSeek 元宝豆包 Kimi

于 2025-11-29 19:54:51 首次发布

本文链接：https://blog.youkuaiyun.com/polarisrisingwar/article/details/155106577

大模型+RAG原理与实战专栏收录该内容

1 篇文章

订阅专栏

诸神缄默不语-个人技术博文与视频目录

专栏网址：https://blog.youkuaiyun.com/polarisrisingwar/category_13090713.html
专栏文章目录：专栏《大模型+RAG原理与实战》目录

1. 大模型简介

在本专栏中，我们说的 “大模型”“语言模型”“大规模预训练语言模型”“大语言模型” 都是一样的东西：通过人工智能技术构建了一个软件/网站，用户可以与它对话，或者加上互动操作，让软件执行推理、搜索或其他功能，最终返回文字（如问题的回答）、图片甚至文件等内容。
实现这个交互功能核心的机器学习算法模型，现在用的都是大模型。
大模型现在回答问题的能力越来越强了，大家已经开始担心自己的工作被大模型取代了。本专栏旨在分享结合RAG（检索增强生成）技术提升大模型回答效果的理论与技术，从而加速大模型取代大家工作的过程。

通过统计学习方法，根据训练数据来构建数学模型解决方式来称为机器学习，机器学习中使用神经网络的方法称为深度学习，现在所说的大模型一般是深度学习中用Transformer架构构建超大规模参数模型的方法。

深度学习中的数据可以是文字、图像、音视频、结构化数据（一般指的是像表格一样的，值都是数字）、图/网络、时间序列等。自然语言处理是让计算机理解、解释、生成自然语言的技术，本专栏就主要涉及对语言文字的处理，对其他模态（图像、音视频等）的涉及程度将根据后续安排决定。

2. 常用大模型使用教程（上）

1. 常用大模型网址

ChatGPT
https://chatgpt.com/（注意这个网址在国内无法直接上）
DeepSeek
https://chat.deepseek.com/
（腾讯）元宝
https://yuanbao.tencent.com/
Kimi
https://www.kimi.com/
（字节）豆包
https://www.doubao.com/chat/
（谷歌）Gemini
https://gemini.google.com/app（注意这个网址也无法在国内直接上）

实话说我感觉谷歌的UI确实比别人家好看一点啊，感觉很简洁美……

2. 基本对话

最简单的使用大模型的方法就是输入文本和其他内容，然后等待大模型返回文本。
比如在生活中遇到什么问题，就可以向大模型进行提问（需要注意大模型的答案不一定准确适用，但可以迅速获得一个比较完整的答案作为参考，还是很有价值的）：
在这里插入图片描述

现在大模型网站的格式基本都长这样：中间是对话区域，可以与大模型进行多轮对话，在输入框里除输入文本外，还可能可以语音输入、切换模型、输入图像和文件、设置网络搜索或推理、深度研究等特殊模式；左边是新建聊天、聊天历史和延伸功能。

在这里插入图片描述

1. 比较常见的输入框附加功能

语音输入
语音模式：大模型以语音形式与你对话
ChatGPT的中文语音非常诡异啊
输入图片
需要注意的是DeepSeek虽然可以上传图片，但并不会理解图片本身的含义，而只会识别图片中的文字（即对图片执行OCR操作），将图片中的文字输入到大模型中
生成图片
添加文件
需要注意的是，现在的大模型添加文件几乎都是只能识别文件中的文字，因此只能接受纯文本文件或提取word、PDF等文档中的文字来输入到大模型中
设置网络搜索
切换深度研究（deepresearch）/推理（reasoning）/非推理模式
这三种模式简单来说就是思考深度逐渐降低，运行速度逐渐增快。
一般来说，对于需要推理的数理、算法类问题，建议使用推理模式；对于日常的文章生成、简单对话，建议使用非推理模式；如果需要模型对复杂内容进行调查研究，最终反馈出一个完整的结论，建议使用深度研究模式
推理这个术语并不是统一的：ChatGPT叫“思考”模式，Kimi叫“长思考模式”，豆包叫“深度思考”模式
切换学习模式：这个功能在你想要简单入门一个新领域时很有用。大模型会教你如何学习一项知识
切换模型
问答示例：会给几个问答示例，点击就能直接提问。这个估计是给不会用AI的用户作参考的
- 元宝：
- Kimi：
- 豆包：

	ChatGPT（免费版）	DeepSeek	元宝	Kimi	豆包	Gemini（免费版）
语音输入	√				√	√
语音模式	√				√（手机APP可以打电话）
输入图片	√	√（但只能识别文字）	√（只有混元模型能理解图片）		√	√（还可以上传谷歌相册中的图片）
生成图片	√		√（只有混元模型能生成图片）		√	√
添加文件	√	√	√（除本地文件外还能上传腾讯文档）	√	√（可以上传到云盘）	√（还能上传谷歌云盘中的文件）
设置网络搜索	√	√	√（元宝可以搜索到微信公众号内容，算是腾讯系独有的优势了）	√	√	√（好像只有深度研究模式中可以搜索网络）
切换深度研究模式	√			√		√
切换推理模式	√	√	√	√	√	√（免费版在切换模式的入口切换推理模式）
切换学习模式	√					√
切换模型			√（混元 / DeepSeek）	√（K2 / K1.5）

模型特殊功能：

ChatGPT：智能购物，画布（要求大模型进入编程环境，在“画布”中写作和修改代码）
元宝：工具（包括写作、编程、解题三类）：
Kimi
1. OK Computer模式：可以在沙箱里进行更多模拟操作，来实现复杂任务
2. PPT：可以做PPT
3. 可以设置常用语作为prompt：
豆包
1. 截图提问
2. 豆包的写作、图片生成、编程、翻译功能都可以打开特定界面来实现，效果有点类似于ChatGPT的画布：
Gemini
1. canvas：效果跟ChatGPT画布类似，用于深度研究和小说写作等创作工作，结果文档会用专门的文档形式UI来呈现，比较美观，可以交互，而且可以直接打印之类的：
2. 图文并茂

2. 比较常见的左栏延伸功能

搜索聊天
智能体（agent）：可以理解成在大模型的对话能力基础上，结合了各个专业领域上自己的能力（包括API、知识库和特殊prompt），从而能够实现一些专业能力的工具。比如Scholar AI就集成了学术论文搜索能力，canva就可以直接画出能在canva网站上继续修改的图片，wolfram则集成了wolfram网站的数值处理能力。
在ChatGPT中叫GPTs，定义为探索并创建结合了指令、额外知识和任何技能组合的自定义版本的 ChatGPT。 只有ChatGPT Plus能创建智能体。
在元宝中叫应用，Gemini中叫gem。
Kimi现在放在对话框里的OK Computer、PPT模式其实也可以算是智能体。之前Kimi的智能体集成平台Kimi+是直接展示在Kimi页面入口的，现在独立出来了，不知道未来是怎么规划的：https://www.kimi.com/kimiplus-square/zh
对智能体我以后将专门写博文来详细介绍，本专栏内只简单带过。
项目：可以将会话记录整理到一个个项目中，方便管理

	ChatGPT（免费版）	元宝	Kimi	豆包	Gemini
搜索聊天	√	√
使用智能体	√	√	√	√	√
创建智能体		√		√	√
项目	√	√

模型特殊功能：

ChatGPT：聊天（这是ChatGPT最近在部分地区刚开放的功能，可以加其他用户和ChatGPT进群聊天¹）

3. 其他功能

用户自定义全局prompt：这个功能就是用户可以自己设置让大模型如何回答的prompt，就不用在每次会话都单独设置了
在Gemini中叫“给 Gemini 的指令”
用户个性化历史：这个功能是允许大模型记录用户以前的会话，从而更好地为用户未来提供服务
豆包的叫“个性化内容推荐”，在设置 - 账号设置中开关：