大模型开发从入门到精通：选型方法论与四大核心法则详解

本文系统介绍大模型选型与开发知识，第一部分解析如何根据任务需求选择合适模型，包括主流厂商、模型类型、能力维度和尺寸匹配；第二部分阐述四大核心法则：模型无记忆（多轮对话依赖上下文传递）、指令有层级（Platform>System>User）、多模态输入皆Token化、官方文档是最可靠信息源。掌握这些原理，能帮助产品经理和开发者正确构建大模型应用。

前排提示，文末有大模型AGI-优快云独家资料包哦！

开篇

对于产品经理来说，模型是AI应用的大脑，选型是产品成败的「第一道关卡」。如果选错了，后面再多的努力都可能是白费。此外，对于LLM应用开发，PM不一定要会写代码，但必须理解模型工作的「基本原理」。

因此我系统地梳理了市面上的主流模型，总结了一套「选型方法论」，并将那些看似复杂的开发概念，提炼成了「四大核心法则」。掌握它们，你就能建立起对大模型开发的正确认知。

本文分为两大部分，可以选择你感兴趣的部分进行查看～

1、如何选择模型？

主流模型概览
评判模型能力的几个核心维度
不同维度下的模型对比
模型尺寸与适用任务
学习思路

2、大模型开发入门

大模型本身没有多轮对话能力
不同角色（platform、system、user）及优先级
多模态模型怎么算token？
学会看官方文档

✨ 第一部分：如何选择模型？

市面上的主流模型

1、主流模型厂商

（1）硅谷一线

OpenAI (GPT系列)
Anthropic (Claude系列)
Google (Gemini系列)
Meta (Llama系列)

👉 技术潮流的定义者

（2）国内双雄

DeepSeek (深度求索)
Qwen (阿里通义千问)

👉 技术紧随其后，尤其在开源和中文能力上表现出色。

据统计，全世界的微调模型中，有80%是基于Qwen的。

（3）国内其他

Doubao (字节豆包)
Kimi (月之暗面)
GLM (智谱清言)

👉 在特定能力（如长文本、性价比）上非常有竞争力。

2、最贵的模型：推理模型

【代表模型】

OpenAl-01，o3(多模态)
Gemini 2.0 Flash Thinking(多模态)
DeepSeek R1
Qwen

【适用场景】

需要复杂规划、深度思考和严谨逻辑的任务，如代码生成、数学竞赛题、科学计算、企业级的复杂业务流程规划等。

3、旗舰模型（全能优等生）

【代表模型】

GPT-4o(多模态)
GPT-5
Geminl Pro系列(1.5，2.0)
Claude Sonnet系列、Opus系列(3.5)
Meta Llama 3.1
DeepSeek V3、Qwen 72B

【适用场景】

对话体验、内容创作、知识问答、逻辑分析等绝大多数主流任务。

4、轻量级模型

【代表模型】

GPT-4o mini，GPT-5 mini
Gemini 2.5 Flash
Claude 3.5 Haiku

【适用场景】

高并发的客服、内容摘要、意图识别、简单指令执行等对成本和速度要求高的场景。

💡 小帖士：

日常工作中，可以把自己领域内的一些「困难case」记录下来，形成一个私人测试集。每当有重磅新模型发布时，花十几分钟跑一遍这个测试集，很快就能对它的能力边界和脾性建立起体感。

模型的几个能力维度

了解了主流模型之后，还需要一套标尺来衡量一个模型的能力，可以从以下几个核心维度去拆解：

1、训练截止日期（知识的新鲜度与深度）

（1）新鲜度

这决定了模型能不能和你聊最近发生的事。

比如，你可以问它“评价一下OpenAI发布的Sora2这个产品”，如果它的训练数据截止到2024年，它就无法回答。

（2）深刻度（更为关键）

**互联网上资料越多的知识，模型掌握得越深刻。**相反，小众、冷门的知识，它可能只是一知半解。
**模型内化记忆的知识，远比通过RAG临时喂给它的知识更深刻。**前者是模型「消化吸收」过的，后者只是「看了一眼小抄」。
模型具备惊人的融会贯通能力。 有些知识在中文互联网上不存在，但在英文世界里很丰富。就算用中文去问，顶尖模型也能很好地回答，因为它已经把不同语言的知识“打通”了。

2、知识记忆能力

这指的是模型能够准确回忆和复述事实性知识的能力。参数量越大的模型，记忆力通常越好。

3、复杂推理

这不仅仅是知识记忆，而是模型进行逻辑推导、多步规划和解决问题的能力。比如，给它一个复杂的数学应用题，它需要先理解题意，拆解步骤，进行计算，最后得出答案。这是区分「学霸」和「普通学生」的关键。

4、复杂指令的遵守能力

这衡量了模型是否「听话」。比如，让它“写一首关于夏天的五言绝句，必须包含‘蝉’和‘雨’两个字，并且要用比喻的修辞手法，最后生成一个JSON格式的输出”。指令越复杂，就越考验模型。

5、代码能力

代码是纯粹的逻辑语言，所以模型的代码能力往往是其逻辑推理能力的最佳「试金石」。一个能写出高质量、无bug代码的模型，通常在其他逻辑任务上也不会差。

几个维度对比模型

了解了标尺，就可以根据以下三个方面具体地对比选择了～

1、推理vs非推理

（1）非推理模型

GPT-4、GPT-4o、DeepSeek V3、GPT-5 main

仅支持快思考。

💡 反应迅速，擅长处理大部分日常对话和创作任务。

（2）推理模型

o1，o3，GPT-5-thinking
Gemini 2.0 Flash Thinking，Claude 3.7 Thinking
Deepseek R1、Qwen也有推理模型

默认“慢思考”，有时候只是说一句“你好”也要思考半天。

💡 这保证了在复杂任务上的高质量，但也带来了更高的延迟和成本。

（3）新一代混合模型

Claude 4.0(不区分thinking)
Qwen 3.0
GPT-5(实际上在ChatGPT里是通过路由分发实现的)

自动判断当前任务，该走快思考，还是慢思考

👉 这代表了未来的趋势，开发者甚至可以在API里直接设置思考时长或算力预算，达到效果和成本的最佳平衡。

2、文本vs多模态

硅谷顶尖玩家的主流模型，如GPT-4o、Gemini，均已默认支持多模态（文本、图片、音频、视频的混合输入输出）。
中国主流的两家DeepSeek和Qwen，旗舰模型尚未实现文本模型和多模态模型的统一。
字节的Seed 1.6系列模型已经实现

多模态和文本的统一，是应用落地的必然趋势。

3、模型尺寸：旗舰大尺寸 vs 中档 vs 小尺寸

（1）顶配旗舰模型：500B以上

DeepSeekR1(670B，DeepSeek主打)
Claude 4.0、OpuS、GPT4.5、GPT-4原始版(2万亿参数)、Gemini Ultra

参数量很大，运行成本极高（DeepSeek用了MOE架构(自学任务)）

（2）中档旗舰模型:100B-300B为主

GPT-4o(据传200B)
o1系列(据传以4o作为基座)
GPT-5(推测)
Claude 4.0 Sonnet(据传200B)(Anthropic主打)
Gemini 2.5 Pro(据传100B-200B)谷歌主打
Qwen 3 235B

🌟 这是各大公司主推的“明星产品”，能力全面，是大部分产品的核心驱动力。

（3）中档主力模型：72B、32B

Qwen 3 72B(阿里主打)
Llama 3 72B

企业微调私有化部署的“偏大”的模型

（4）小尺寸主力模型:7B

GPT 4.1 mini
Gemini Flash系列
Qwen37B、LLAMA38B

各种企业微调模型的主力尺寸

（5）端侧微小模型：3B及以下

苹果、小米、谷歌等有手机业务的厂商
少数创业公司如面壁智能会关注
Qwen系列也会包含3B左右尺寸

不同尺寸适用任务

作为PM，理解尺寸和任务的匹配关系，直接关系到产品成本和用户体验。

1、模型参数量与知识记忆之间的关系

（1）必要条件

在当前以transformer架构为主的阶段，参数量大是知识记忆能力强的必要条件。一般来说，72B以上是基础知识水平达标的门槛。

（2）知识压缩率

万亿参数模型，相当于把互联网上的百科知识以很低的压缩率（比如80%）内化记忆了，损失少，包括一些小众的知识。而7B模型，知识的「蒸馏」损失会大很多，可能只记得“中国的首都是北京”，但不知道“赫尔巴特学派在19世纪德国教育思想史中的具体影响”这类小众知识。

（3）事实性问答

GPT4.5(万亿参数) > GPT4o(据传是100B左右) >> GPT4omini(据传是8B左右)

2、模型参数偏大还是偏小？

（1）越大越好——Anthropic研究员

认为今天的万亿模型相比人脑依然太小，模型内部存在大量参数复用，说明参数还远远不够用。

（2）相反的观点——Sam Altman、AndrejKarpathy

认为未来应该是小尺寸、但推理能力极强的核心模型，知识和工具都可以依赖外部调用（RAG、Tool-use）。

这就像一个绝顶聪明的奥赛选手，虽然知识储备不多，但理论上解决问题能力极强，只要你允许他打小抄（调用外部知识库）、允许他使用外部工具（代码、电脑任你使用）。

💡 GPT-5虽然是千亿模型，其实也是类似的思路。

另外还有模型参数大小和成本的考量。OpenAI内部应该有比公开给用户使用的这几个模型参数还大很多的模型，用来当作教师模型。

👉 PM如何思考：

这两种思路并不矛盾。PM的任务是根据产品场景做权衡。如果你的应用是事实性知识问答，大模型是基础保障。如果你的应用是基于私有知识库的客服，一个小而精、指令遵循能力强的模型，配合高效的RAG，可能是性价比最高的选择。

学习思路

👉 由顶而下

1、优先学习全世界最前沿的LLM开发范式

先去体验OpenAI、Claude 3.5这些顶尖模型，理解当前技术能达到的天花板在哪里。这会让你建立起正确的「品味」。

2、学习顶尖团队的落地案例：

去研究微软Office Copilot、LinkedIn等团队是如何将LLM融入产品的。学习他们的完整过程，建立清晰的“心智模型”。之前我有发一个笔记，是关于学习AI Agent的一个公开资料入口，核心就是要首先学习顶尖团队的实践经验。

3、国内落地现状

各个大模型厂商/B端企业落地的范式，经常基于落后模型，导致落地效果很差，开发者也不知道如何能突破。

但当你见过了最好的范式，再回头去看国内的落地现状或使用能力稍差的模型时，你就更容易诊断出问题所在，并知道如何通过工程手段（如优化Prompt、改进RAG策略）去弥补。

💡 国产模型和落后模型，会不断追上、对标领先模型，所以现在我们学习的前沿知识，短期内不会过时的。

✨ 第二部分：大模型开发入门

大模型本身没有多轮能力

你可能会觉得，ChatGPT这类应用记性很好，能和你连续聊上几百回合。但一个颠覆认知的事实是：大模型****本身是「无状态」的，它没有任何记忆。

每一次你发送请求，对于模型来说都是一次全新的、独立的任务。它完全不记得你上一秒钟跟它说了什么。

💡 形象地理解：

就像电影《初恋50次》的女主角，她的记忆只能持续一天。她的男友必须每天都重新告诉她他们之间的故事，她才能“记起”他们的情侣关系。

那所谓的「多轮对话能力」是怎么实现的呢？

答案很简单：工程师在每次请求时，都把你们之前的对话历史，像「前情提要」一样，重新打包发给了模型。

# 伪代码演示
# 第一轮
你的输入: "你好"
模型看到的: "你好"
模型回复: "你好！有什么可以帮你的吗？"
# 第二轮
你的输入: "我叫晨光"
模型看到的: "用户: 你好
助手: 你好！有什么可以帮你的吗？
用户: 我叫晨光 "
模型回复: "好的，晨光！很高兴认识你。"

总结一下～

想要获得连贯的多轮效果，关键不在模型「会不会」，而在你如何组织与传递历史内容。

🌟 产品经理视角

（1）成本意识

上下文越长，消耗的Token就越多，API调用成本越高。设计需要长线记忆的产品功能（如专属AI助理）时，必须考虑成本控制策略（如历史摘要、选择性遗忘）。

（2）体验边界

所有模型都有上下文窗口上限。当对话历史超过这个长度时，模型就会开始「失忆」。PM需要为产品设计合理的交互来处理这种情况（如提示用户开启新对话、上下文切断）。

（3）技术方案

RAG（检索增强生成）和多轮对话是两回事。RAG是给模型看「外部知识」（小抄），而多轮对话是让模型回顾「聊天记录」。

消息角色与优先级

和模型交互时，指令并非生而平等，它们存在一个清晰的优先级「金字塔」。理解这个层级，能帮你更好地设计AI的行为边界。

（1）🥇 Platform (平台层)

这是模型厂商（如OpenAI）写在模型底层的最高指令，通常是关于安全、道德和行为准则的硬性约束。开发者无法查看或修改。

例如：“绝对不能生成有害内容。”

（2）🥈 System / Developer (系统/开发者层)

这是你在开发应用时，通过API设置的「系统提示词」（System Prompt）。它定义了AI的角色、性格、说话风格和任务目标。

例如：“你是一个风趣幽默的旅行规划师，要用海盗的口吻回答问题。”

（3）🥉 User (用户层)

这是终端用户在你的产品界面输入的内容。

例如：“帮我规划一个去夏威夷的行程。”

当指令发生冲突时，优先级高的会覆盖优先级低的：Platform > System > User。 这就是为什么无论你怎么诱导，通常都无法让模型输出黄赌毒内容（Platform层拦截），以及为什么AI会坚持自己的角色设定（System层指令优先于User层）。

总结一下～

当三者发生冲突时，优先级从高到低依次是：

platform > developer/instructions > user

再赘述一下，有时候会看到assistant这个角色，这是指模型生成的回答，只是模型消息的代指，不要和上面三个概念搞混了～

🌟 产品经理视角

（1）产品定调

System Prompt是产品经理定义AI「人设」和「核心能力」的最重要工具。产品文档里应该有专门章节来设计和迭代System Prompt。（这是PM关于Prompt工程的核心工作）

（2）边界设计

通过System Prompt可以建立产品的「护栏」，防止用户通过输入（User Prompt）让AI偏离其核心功能定位。

多模态模型计费与token

当我们在谈论模型成本时，绕不开一个核心单位：Token。

一个常见的误区是，只有文本才算Token。实际上，在先进的多模态模型（如GPT-4o, Gemini）中，无论是文本、图片、音频还是视频，最终都会被转换成模型能理解的Token来进行处理和计费。

怎么算？

不需要关心背后复杂的编码算法。只需要记住一个原则：

输入的内容越多、越复杂（比如高清大图 vs 低分辨率缩略图），转化的Token就越多，费用就越高。

去哪看？

各大模型厂商的官网上都有明确的定价页面（一般在Pricing），会详细说明不同类型输入的计费标准。

🌟 产品经理视角:

（1）成本建模

在设计包含图片上传、音视频分析等功能时，必须将多模态Token的成本纳入考量。例如，可以限制用户上传的图片尺寸或视频时长来控制成本。

（2）功能定价

理解Token成本是为AI功能进行合理定价的基础。高消耗的功能（如视频摘要）自然应该对应更高的价格。

官方文档怎么读？

二手知识和教程固然有价值，但**官方文档永远是AIPM****最可靠、最权威的信息来源。**它更新最快、描述最准。

当你需要了解一个模型的确切能力、API如何调用、参数如何设置时，第一选择就是去官网查阅文档。

去哪找？

👉 官网的开发者中心/文档中心，直接进入 Docs。

比如OpenAI入口：https//platform.openai.com/docs

怎么读？

💡 之前如果没有看过官方文档，直接去看可能会不知从何看起。没关系～一开始都会这样，当你尝试看过一两次，你就会轻松摸清官方文档的「套路」😎

**快速开始：**先跟着跑通一个最简单的“Hello World”示例，建立体感。
**核心部分：**精读核心概念部分，理解背后的原理。
API参考**：**当作字典，在需要时查阅具体的参数和用法。

为了让你更有体感，这里有几个从「单轮」到「多轮」的极简代码示例（python），它们清晰地展示了前面提到的法则：👇

（1）最简单的单轮对话

# 引入OpenAI库from openai import OpenAI
client = OpenAI()
# 创建请求，模型为gpt-4o，输入为一句话
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
     "role": "user",
     "content": "写一个关于独角兽的晚安故事，一句话就行。"
     }
  ]
)
# 打印模型的回复
print(response.choices[0].message.content)

（2）加入系统指令，让AI扮演角色

from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    # 这是System层的指令，定义AI的角色
    {
      "role": "system", 
      "content": "你现在是一只爱说冷笑话的猫。"
    },
    # 这是User层的输入
    {
      "role": "user", 
      "content": "今天天气怎么样？"
    }
  ]
)
print(response.choices[0].message.content)

（3）实现「多轮对话」（把历史喂回去）

from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  # messages列表里包含了完整的对话历史
  messages=[
    {
      "role": "user", 
      "content": "你好，我叫晨光。"
    },
    {
      "role": "assistant", 
      "content": "晨光你好！有什么可以帮你的吗？"
    },
    {
      "role": "user", 
      "content": "你还记得我叫什么吗？"
    } # 模型通过看到上一轮历史来回答
  ]
)
print(response.choices[0].message.content)