大模型简介

‌‌Anastasia

已于 2025-02-25 09:07:09 修改

阅读量279

点赞数 8

文章标签：概率论

于 2025-02-06 19:46:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_62894677/article/details/145459858

版权

📕参考：B站

什么是大语言模型

刚开始是基于规则的，后期是基于概率的。

然后呢，我们要把这些概率建模成条件概率，然后就知道这个词后边可能是哪个词了。

理解：

将概率，建模成条件概率，然后每次选概率最大的。

理解为： Today后面出现is的可能性最大。

常见的语言模型

多片元（n-gram）语言模型

多片元（n-gram）语言模型：忽略久远的历史，只统计最近几个词对下一个词的影响。

1-gram：1片元语言模型，只考虑前一个词对后一个词的影响

2-gram：2片元语言模型，只考虑前两个词对后一个词的影响

多片元（n-gram）语言模型，但是呢，n越大，所需要的语料就越大。

隐马尔可夫模型

前向神经网络语言模型

循环神经网络语言模型

序列到序列学习 LSTM

Transformer

GPT3

GPT3：

1.提出缩放定律

2.将所有NLP任务统一到LM

3.信念：通过语言模型探索AGI

缩放定律：参数越多，越准确。

历史时间线：

为什么要研究LLM？

语言与智能的关系

语言与智能的关系：

1.语言是用来思考的

2.语言是促使认知智能产生的环境压力来源。

算法信息论

什么是图灵机？

图灵机（Turing Machine） 是由英国数学家艾伦·图灵（Alan Turing）于1936年提出的一种抽象计算模型，用于严格定义“可计算性”的概念。它是计算机科学的理论基础，为现代计算机的设计和计算理论奠定了数学基础。

图灵机的核心思想

图灵机通过一个简单的、理想化的机械模型，证明了所有可计算的问题都可以通过某种明确的步骤（算法）解决。它的核心目标是回答：

什么是计算？
哪些问题是可计算的？

柯氏复杂度

柯氏复杂度：序列的复杂度应当定义为，能够输出该序列的最简单的图灵机的编码长度。

速度先验：

“简单”的含义应当是“能够快速描述”，而不是“描述短”。

复杂度应当定义为：能够输出该序列的图灵机所需的最短计算时间。

这个人提出了LSTM。

符号主义的困局

柯氏复杂度：序列的复杂度应当定义为，能够输出该序列的最简单的图灵机的编码长度。

柯氏复杂度不足：人类的智能机制具有高复杂度，人类能写出的程序复杂度不足。

理解就是，需要一个复杂度较高的才能模拟出人类的智能机制。

复杂度高的可以推出复杂度低的，复杂度低的推不出复杂度高的。

用语料数据构建语言模型，走向数据驱动是必然的。

大语言模型

拿到一个很复杂的数据集，然后用一个算法去压缩它，得到一个相对较小的模型，然后针对任务再用一点点数据集来调整。

为什么要研究大模型？

足够大的模型才有望比拟人类智能。

仿生陷阱

计算机有自己的优势，我们可以利用计算机原本的能力。比如：数值计算、精确自动执行。

行为主义陷阱

LLM研究的行为主义趋势：

主张研究可以被观察和直接测量的行为，反对研究没有科学依据的意识。

将模型行为全部归结为先天因素（训练数据）和后天因素（上下文）。

观点：LLM是LM。

价值陷阱

大模型的安全性，语料的意识形态输出，价值观对齐。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

‌‌Anastasia 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。