📕参考:B站
什么是大语言模型
刚开始是基于规则的,后期是基于概率的。
然后呢,我们要把这些概率建模成条件概率,然后就知道这个词后边可能是哪个词了。
理解:
将概率,建模成条件概率,然后每次选概率最大的。
理解为: Today后面出现is的可能性最大 。
常见的语言模型
多片元(n-gram)语言模型
多片元(n-gram)语言模型:忽略久远的历史,只统计最近几个词对下一个词的影响。
1-gram:1片元语言模型,只考虑前一个词对后一个词的影响
2-gram:2片元语言模型,只考虑前两个词对后一个词的影响
多片元(n-gram)语言模型,但是呢,n越大,所需要的语料就越大。
隐马尔可夫模型
前向神经网络语言模型
循环神经网络语言模型
序列到序列学习 LSTM
Transformer
GPT3
GPT3:
1.提出缩放定律
2.将所有NLP任务统一到LM
3.信念:通过语言模型探索AGI
缩放定律:参数越多,越准确。
历史时间线:
为什么要研究LLM?
语言与智能的关系
语言与智能的关系:
1.语言是用来思考的
2.语言是促使认知智能产生的环境压力来源。
算法信息论
什么是图灵机?
图灵机(Turing Machine) 是由英国数学家艾伦·图灵(Alan Turing)于1936年提出的一种抽象计算模型,用于严格定义“可计算性”的概念。它是计算机科学的理论基础,为现代计算机的设计和计算理论奠定了数学基础。
图灵机的核心思想
图灵机通过一个简单的、理想化的机械模型,证明了所有可计算的问题都可以通过某种明确的步骤(算法)解决。它的核心目标是回答:
-
什么是计算?
-
哪些问题是可计算的?
柯氏复杂度
柯氏复杂度:序列的复杂度应当定义为,能够输出该序列的最简单的图灵机的编码长度。
速度先验:
“简单”的含义应当是“能够快速描述”,而不是“描述短”。
复杂度应当定义为:能够输出该序列的图灵机所需的最短计算时间。
这个人提出了LSTM。
符号主义的困局
柯氏复杂度:序列的复杂度应当定义为,能够输出该序列的最简单的图灵机的编码长度。
柯氏复杂度不足:人类的智能机制具有高复杂度,人类能写出的程序复杂度不足。
理解就是,需要一个复杂度较高的才能模拟出人类的智能机制。
复杂度高的可以推出复杂度低的,复杂度低的推不出复杂度高的。
用语料数据构建语言模型,走向数据驱动是必然的。
大语言模型
拿到一个很复杂的数据集,然后用一个算法去压缩它,得到一个相对较小的模型,然后针对任务再用一点点数据集来调整。
为什么要研究大模型?
足够大的模型才有望比拟人类智能。
仿生陷阱
计算机有自己的优势,我们可以利用计算机原本的能力。比如:数值计算、精确自动执行。
行为主义陷阱
LLM研究的行为主义趋势:
主张研究可以被观察和直接测量的行为,反对研究没有科学依据的意识。
将模型行为全部归结为先天因素(训练数据)和后天因素(上下文)。
观点:LLM是LM。
价值陷阱
大模型的安全性,语料的意识形态输出,价值观对齐。