一、什么是 AI
在当前AI概念大火的大环境下,似乎不加上AI的系统都不够潮流,但如何定义什么是AI?一种观点:基于机器学习、神经网络的是 AI,基于规则、搜索的不是 AI。从我个人理解上来看,更通俗的来说运行结果没有规律、不可预知,但能够在一定程度上符合预期的系统可以认为是AI。
二、大模型 AI 能干什么
虽然我们平时熟知的大模型产品主要以对话为主,例如ChatGPT、通义千问,文心一言等等,可以这样说,这些对话产品只是大模型的一种应用方式,或许是当前最能够产生热度或使用门槛最低的一种应用方式,但在我看来并不是最能够产生生产力的一种应用方式,我们可以给大模型建立一套规则,让大模型在这套规则里按照我们的设定去运行,听起来是不是就很像传统工程应用上产品经理给开发提需求,或者换句话说,可以直接把大模型当成一个能够接收文本或者二进制并根据要求输出文本或者二进制的电子人或智能体。
三、大模型是怎样工作的
简单来说,语言类大模型工作方式主要就是通过上文推测下一个字/词的概率,千万别觉得这很简单,也许人类的思考方式也是类似的机制。
大模型的工作主要有两个核心过程:训练、推理,简单来说训练就是学习的过程,推理就是应用的过程。
训练:
- 大模型阅读了人类说过的所有的话。这就是「机器学习」
- 训练过程会把不同 token 同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重」
推理: