大模型简介

📕参考:B站


什么是大语言模型

刚开始是基于规则的,后期是基于概率的。

 然后呢,我们要把这些概率建模成条件概率,然后就知道这个词后边可能是哪个词了。

理解: 

将概率,建模成条件概率,然后每次选概率最大的。

理解为: Today后面出现is的可能性最大 。


 常见的语言模型 

 多片元(n-gram)语言模型

多片元(n-gram)语言模型:忽略久远的历史,只统计最近几个词对下一个词的影响。

1-gram:1片元语言模型,只考虑前一个词对后一个词的影响

2-gram:2片元语言模型,只考虑前两个词对后一个词的影响

多片元(n-gram)语言模型,但是呢,n越大,所需要的语料就越大。

隐马尔可夫模型

前向神经网络语言模型

循环神经网络语言模型

序列到序列学习 LSTM

Transformer

GPT3

GPT3:

1.提出缩放定律

2.将所有NLP任务统一到LM

3.信念:通过语言模型探索AGI

缩放定律:参数越多,越准确。

历史时间线:


为什么要研究LLM?

语言与智能的关系

语言与智能的关系:

1.语言是用来思考的

2.语言是促使认知智能产生的环境压力来源。

算法信息论

什么是图灵机?

图灵机(Turing Machine) 是由英国数学家艾伦·图灵(Alan Turing)于1936年提出的一种抽象计算模型,用于严格定义“可计算性”的概念。它是计算机科学的理论基础,为现代计算机的设计和计算理论奠定了数学基础。

图灵机的核心思想

图灵机通过一个简单的、理想化的机械模型,证明了所有可计算的问题都可以通过某种明确的步骤(算法)解决。它的核心目标是回答:

  • 什么是计算?

  • 哪些问题是可计算的?

柯氏复杂度

柯氏复杂度:序列的复杂度应当定义为,能够输出该序列的最简单的图灵机的编码长度。

速度先验:

        “简单”的含义应当是“能够快速描述”,而不是“描述短”。

        复杂度应当定义为:能够输出该序列的图灵机所需的最短计算时间。

        这个人提出了LSTM。

符号主义的困局

柯氏复杂度:序列的复杂度应当定义为,能够输出该序列的最简单的图灵机的编码长度。

柯氏复杂度不足:人类的智能机制具有高复杂度,人类能写出的程序复杂度不足。 

理解就是,需要一个复杂度较高的才能模拟出人类的智能机制。

复杂度高的可以推出复杂度低的,复杂度低的推不出复杂度高的。

用语料数据构建语言模型,走向数据驱动是必然的。

大语言模型

拿到一个很复杂的数据集,然后用一个算法去压缩它,得到一个相对较小的模型,然后针对任务再用一点点数据集来调整。

为什么要研究大模型?

        足够大的模型才有望比拟人类智能。 

仿生陷阱

计算机有自己的优势,我们可以利用计算机原本的能力。比如:数值计算、精确自动执行。

行为主义陷阱

LLM研究的行为主义趋势:

        主张研究可以被观察和直接测量的行为,反对研究没有科学依据的意识。

        将模型行为全部归结为先天因素(训练数据)和后天因素(上下文)。

观点:LLM是LM。

价值陷阱

大模型的安全性,语料的意识形态输出,价值观对齐。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

‌‌Anastasia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值