AI大模型基本原理 -优快云博客

AI大模型基本原理

什么是AI？
AI大模型能做什么
大模型现阶段落地情况综述
怎样寻找企业中大模型落地场景
大模型的通俗原理
大模型技术的短板
大模型应用技术架构
DeepSeek本地部署和应用

什么是 AI？

「AI is bullshit。深蓝没用任何 AI 算法，就是硬件穷举棋步。」

思考：「智能冰箱」是 AI 吗？

一种观点：基于机器学习、神经网络的是 AI，基于规则、搜索的不是 AI。

AI大模型能干什么？

大模型，全称「大语言模型」，英文「Large Language Model」，缩写「LLM」。

现在，已经不需要再演示了。每人应该都至少和下面一个基于大模型的对话产品，对话过至少 100 次。

国家	公司	对话产品	旗舰大模型	网址
美国	OpenAI	ChatGPT	GPT	https://chatgpt.com/
美国	Microsoft	Copilot	GPT 和未知	https://copilot.microsoft.com/
美国	Google	Gemini	Gemini	https://gemini.google.com/
美国	Anthropic	Claude	Claude	https://claude.ai/ ，公认不输甚至超过 GPT 的
中国	百度	文心一言	文心	https://yiyan.baidu.com/
中国	阿里云	通义千问	通义千问	https://tongyi.aliyun.com/qianwen
中国	智谱 AI	智谱清言	GLM	https://chatglm.cn/
中国	月之暗面	Kimi Chat	Moonshot	https://kimi.moonshot.cn/
中国	MiniMax	星野	abab	https://www.xingyeai.com/
中国	深度探索	deepseek	DeepSeek	https://chat.deepseek.com/

本课第一个专业向要求：分清对话产品和大模型。

建议：

要有一个访问国外的「通道」，否则无法有顶级体验
如果不能访问 ChatGPT，不是 ChatGPT Plus 会员，会非常遗憾
DeepSeek 是 ChatGPT 免费平替

但是，千万别以为大模型只是聊天机器人。它的能量，远不止于此。

大模型的一些用法：

按格式输出：按照你需要的格式输出你想要的内容

分类：给出一些数据，可以帮你进行分类

聚类：给出一些数据，可以帮你分成几块内容

持续互动：可以像和人沟通一样，持续的互动

技术相关问题：可以解答各种技术问题。

可能一切问题，都能解决，所以是通用人工智能 AGI

用 AI，要用「用人思维」：

机器思维：研发了什么功能，就有什么功能。
用人思维：给 ta 一个任务，总会有些反馈，或好或坏，惊喜或惊吓。

划重点：

大模型就是一个函数，给输入，生成输出
任何可以用语言描述的问题，都可以输入文本给大模型，就能生成问题的结果文本
进而，任意数据，都可以输入给大模型，生成任意数据

英伟达 CEO 黄仁勋 2024 年 6 月 2 日在 Computex 上的演讲提到各种模态数据的统一支持：

大模型GPT时代：一切皆为向量

AI驱区动干行百业效率升级，大量行业场景应用价值仍待深挖

大模型现阶段落地情况综述

Killer App 没有影，
AI 原生待证明。
手握场景不着急，
内部提效暗暗行。

Killer App 没有影

AI 没有创造新的使用场景，只是旧场景的增强，所以没有 Killer App 的土壤
可以乐观期待 Killer App，但别苦苦追求
请忽略一切张嘴就是 Killer App 的人

AI 原生待证明，目前AI的一些应用

AI 原生，是指产品的核心功能是 AI，而不是 AI 作为辅助功能。典型特点是，有 AI 后才出现。

助手类，打不过 Siri 们
- ChatGPT
- Kimi Chat
- 文心一言
- 通义千问
- 智谱清言
- ……
搜索类，谷歌百度不会袖手旁观
情感陪伴类，社交巨头正谨慎观察
- Character.AI（已被 Google 人才收购）
- 星野
- Replika
定制 Agent，商业模式探索中
AI编程，目前最成功的AI应用

手握场景不着急

大玩家毫不落后，AI 带来的市场格局变化不大。

内部提效暗暗行

很多企业将大模型和业务相结合，取得了或大或小的效果

营销
- AI 做营销创意，人再加工
- AI 批量生产营销素材
- 多语言翻译
客服/销售
- 全 AI，适合本来没人做，AI 来补位
- 半 AI，适合本来有人做，AI 来提效
办公
- 公文撰写/总结/翻译
- 知识库
  - 内部客服
  - 辅助决策
- 情报分析
- BI
产品研发
- 创意、头脑风暴
- IT 研发提效

怎样寻找企业中大模型落地场景

1. 业务流程解构

明确目标：确定解构的目标是什么，是否是提升效率、降低成本，还是增强产品或服务的质量。
分析现有流程：通过与相关部门和团队沟通，了解当前的业务流程，使用流程图、价值流图等工具。
收集数据：收集与流程相关的数据，包括时间、资源、瓶颈等，识别出目前流程中的问题和改进点。
识别关键环节：确定每个环节对业务结果的影响，识别哪些环节最能推动价值产生，哪些是浪费或低效的环节。

2. 绘制企业价值流图

识别关键流程：将企业流程分为不同的关键环节，如供应链管理、生产流程、销售等。
标记价值增值活动：明确哪些环节增加了实际价值，哪些是纯粹的支持性或非增值活动。
流程中的浪费：识别流程中出现的浪费，如等待、过度处理、运输、库存、动作等。
时间与资源：标注每个环节的时间、资源消耗，以及这些消耗如何影响最终的交付。
改进方案：通过价值流图，找到需要优化的环节，提出改善措施。

3. 识别大模型应用场景

数据驱动的决策：大模型可以帮助企业分析大量数据，提供更精确的决策支持，示例：通过AI分析客户数据，优化市场营销策略。
自动化与智能化：大模型可以应用于自动化任务，如智能客服、语音识别、图像识别等，减少人工成本并提升效率。
个性化服务：通过大模型实现个性化推荐系统，基于用户历史行为或偏好为其推荐个性化的产品或服务，提高客户满意度和转化率。
预测与优化：利用大模型对历史数据进行分析，预测未来趋势，优化生产计划、库存管理等业务环节。
业务流程改进：利用大模型分析当前业务流程中的瓶颈和效率低下的环节，提出改进措施，优化资源配置。

实际应用案例：业务流程解构与企业大模型应用

案例 1：智能客服系统优化

1. 业务流程分析

现有流程：客户通过电话或在线渠道联系客服，人工客服接听后处理问题。高峰时段，客服人员处理请求的速度较慢，且重复性问题占比高。
问题分析：
- 客服响应时间长，客户体验差。
- 高重复性问题，人工客服效率低。
- 客服人员压力大，缺乏足够的资源。

2. 价值流图绘制

关键流程：
1. 客户请求 -> 人工客服接听 -> 问题解决 -> 客户反馈
问题识别：
- 高峰期间等待时间长，人工客服需要处理大量重复问题，缺乏自动化支持。
改进点：
- 引入自动化工具（如智能客服）减少人工干预，提升响应速度。

3. 应用大模型

自然语言处理（NLP）：使用大语言模型（如GPT）构建智能客服系统，支持自然语言理解和生成，自动回答常见问题。
工作流：
- 使用NLP识别客户请求意图并进行分类。
- 常见问题通过智能问答系统自动解答。
- 将复杂或不常见问题转接给人工客服。
结果：
- 客服响应时间减少50%，客户满意度提高。
- 人工客服压力减轻，更多精力投入到复杂问题处理上。

案例 2：智能供应链与需求预测优化

1. 业务流程分析

现有流程：企业生产与库存管理依赖传统的预测模型，按月或季度调整生产计划，库存管理不精确，容易造成库存积压或缺货。
问题分析：
- 生产计划与实际需求不匹配，导致产能浪费或供应短缺。
- 库存管理不精准，影响现金流和运营成本。

2. 价值流图绘制

关键流程：
1. 需求预测 -> 生产计划 -> 原材料采购 -> 产品生产 -> 仓库管理 -> 客户交付
问题识别：
- 传统需求预测精度低，库存管理滞后，无法快速响应市场变化。

3. 应用大模型

机器学习模型：利用历史销售数据、市场趋势和季节性变化等因素，应用大模型提高需求预测精度。
工作流：
- 使用AI进行数据分析和需求预测。
- 自动调整生产排程和采购计划。
- 基于预测结果动态调整库存管理策略。
结果：
- 需求预测准确率提高20%，库存积压减少30%。
- 生产和采购计划更加精准，运营成本降低。

案例 3：智能生产线质量控制

1. 业务流程分析

现有流程：生产线上的产品质量由人工检测，人工检测存在判断失误和效率低的问题，特别是在高产量情况下，无法及时发现质量问题。
问题分析：
- 质量检测依赖人工，容易漏检或误判。
- 高生产速度下无法保证每个产品都得到充分检查，导致次品流入市场。

2. 价值流图绘制

关键流程：
1. 原材料入库 -> 生产加工 -> 质量检查 -> 产品包装 -> 交付
问题识别：
- 人工检查的准确性和效率无法满足生产需求，生产质量无法稳定控制。

3. 应用大模型

计算机视觉：使用视觉大模型进行产品质量检测，自动识别产品缺陷。
工作流：
- 使用大模型对生产线上每个产品进行图像识别，实时监控产品表面缺陷。
- 对有缺陷的产品进行标记，及时移出生产线，避免流入市场。
- AI实时反馈生产数据给生产线控制系统，优化生产流程。
结果：
- 质量检测精度提升至99%，次品率减少80%。
- 整体生产效率提升30%，减少了人工检测的误差和漏检问题。

总结

这三个案例展示了如何通过大模型优化企业业务流程。智能客服、供应链优化和生产线质量控制是大模型应用的重要领域，通过自动化、预测和优化，企业能够提高效率、降低成本，并提供更好的客户体验。通过结合大模型的强大能力，企业可以快速应对变化，提升竞争力。

成功落地大模型五要素

成功落地大模型五要素：

业务人员的积极
对 AI 能力的认知
业务团队自带编程能力
小处着手
老板的耐心

如何找到落地场景

找落地场景的思路：

从最熟悉的领域入手
尽量找能用语言描述的任务
别求大而全。将任务拆解，先解决小任务、小场景
让 AI 学最厉害员工的能力，再让 ta 辅助其他员工，实现降本增效

思考：你的业务中，有哪些问题可能 AI 能解决？

工作机会在哪里？

首先要知道：纯大模型岗位几乎是不存在的。

可选：

独立开发者/创业
有科技属性的公司几乎所有岗位
传统企业跑通 AI 工作流，找全栈工程师定制化开发

大模型是怎样工作的？

通俗原理

其实，它只是根据上文，猜下一个词（的概率）……也就是通过训练好的函数，根据我们输入的东西去求解，而这个函数是提前训练好的。

OpenAI 的接口名就叫「completion」，也证明了其只会「生成」的本质。

略深一点的通俗原理

训练和推理是大模型工作的两个核心过程。

用人类比，训练就是学，推理就是用。学以致用，如是也。

例如，有下面训练数据：

AI 正在改变我们的生活方式。
AI 技术在医疗领域有广泛应用。
AI 可以提高企业的生产效率。
AI 算法能够预测市场趋势。
AI 在自动驾驶汽车中扮演重要角色。
AI 有助于个性化教育的发展。
AI 机器人可以执行复杂的任务。
AI 技术正在推动智能家居的普及。
AI 在金融分析中发挥着关键作用。
AI 技术正逐步应用于艺术创作。

「AI」之后出现「技」的概率大于其它字。这些字之间的概率关系，就是大模型训练时学到的。

用不严密但通俗的语言描述原理：

训练：

大模型阅读了人类说过的所有的话。这就是「机器学习」
训练过程会把不同 token 同时出现的概率存入「神经网络」文件。保存的数据就是「参数」，也叫「权重」

推理：

我们给推理程序若干 token，程序会加载大模型权重，算出概率最高的下一个 token 是什么
用生成的 token，再加上上文，就能继续生成下一个 token。以此类推，生成更多文字

Token 是什么？

可能是一个英文单词，也可能是半个，三分之一个
可能是一个中文词，或者一个汉字，也可能是半个汉字，甚至三分之一个汉字
大模型在开训前，需要先训练一个 tokenizer 模型。它能把所有的文本，切成 token

1 个英文字符 ≈ 0.3 个 token。 1 个中文字符 ≈ 0.6 个 token。

思考：

AI 做对的事，怎么用这个原理解释？
AI 的幻觉，一本正经地胡说八道，怎么用这个原理解释？

再深一点点

这套生成机制的内核叫「Transformer 架构」
Transformer 是目前人工智能领域最广泛流行的架构，被用在各个领域

机器学习 ≈ 机器自动找一个函数

函数的参数

找出函数的三步骤

就算说大模型通过大量的数据不断地推理和计算得到了一个符合我们要求或者是得到了一个绝大部分答案正确的函数，

这个函数就是训练好的大模型。然后我们就可以去使用这个函数去做推理得到我们需要的答案。

Transformer在做一个什么事情？

标量、向量、矩阵、张量的关系

点——标量（scalar）
线——向量（vector）
面——矩阵（matrix）
体——张量（tensor）

Embedding是什么？

假设我们有一个句子：“The cat sat”

Transformer核心：注意力机制

注意力机制中的Q、K、V

用好 AI 的核心心法

OpenAI 首席科学家 Ilya Sutskever 说过：

数字神经网络和人脑的生物神经网络，在数学原理上是一样的。

所以，我们要：

把 AI 当人看
把 AI 当人看
把 AI 当人看

凯文·凯利说了类似的观点：「和人怎么相处，就和 AI 怎么相处。」

用「当人看」来理解 AI
用「当人看」来控制 AI
用「当人看」来说服别人正确看待 AI 的不足

当什么人呢？

学习时当老师
工作时当助手
休闲时当朋友

这是贯彻整门课的心法，乃至我们与 AI 相伴的人生的心法。

使用大模型的好习惯：

使用大模型，不同的话题要开启新的会话；
明确指令和问题：尽量使问题或指令简洁明确，避免多重含义或复杂结构，帮助模型更好理解和响应。
分步进行：如果问题复杂，可以将问题拆解成几个小问题，逐步处理。这不仅能提高准确度，还能避免模型处理过于庞大的信息。
上下文保留：在多个会话中，如果需要参考之前的对话，可以适当提及或复述关键点，避免丢失上下文。
分配优先级：针对多个任务或问题，可以为每个话题分配优先级，先处理最重要或最紧急的内容。
适应模型的限制：了解模型的处理能力和上下文长度限制，避免在同一会话中输入过长的文本，尤其是如果涉及大量信息时，分割问题会更有效。
反馈循环：在与模型交互时，如果模型的回答不完全或不符合预期，可以及时提供反馈和补充说明，让模型逐步优化回答。
使用特定的格式或模板：如果是处理特定类型的任务或问题（如代码、数学问题、写作任务），可以为输入提供特定的格式或模板，以帮助模型更准确地理解任务需求。

课堂实验：你提个 AI 相关问题，我来用人类比

大模型技术的短板

对时效性内容的处理： 由于大型模型通常在某个时间点之前的数据上训练，它们可能无法处理最新的事件或信息。例如，对于最近发生的新闻事件或新兴的流行文化现象，模型可能缺乏理解，GPT4最近最新2023年4月。
幻觉、不准确性和滥用风险： 大型模型可能产生“幻觉”，即提供错误但看似合理的文本。这可能导致误信息的传播，甚至被用于非法或不道德目的。例如，恶意使用者可能利用模型生成看似来自可信出版物的文章，作为假新闻传播。
泛化能力的局限性： 泛化能力指的是一个模型在处理新的、未见过的数据时的表现能力虽然大型模型在多个任务上表现出色，但在处理特定、罕见或新颖的情况时可能表现不佳
难以解释和透明性差： 大型模型通常是“黑箱”，即使是模型的开发者也无法完全理解模型是如何配置自身以产生文本的。这导致了解释或解释AI/ML算法的新框架的发展，但由于模型规模的增大，解释性AI/ML方法变得日益复杂。