参考链接:so-large-lm/docs/content/ch01.md at main · datawhalechina/so-large-lm
引言
1.1语言模型
给定文本输入,给出对应的新的文本或者符号输出
自回归语言模型
特点:可以利用前馈神经网络计算每个条件概率分布
temperature:可以用来控制生成中的变异量
较高的temperature代表更高的多样性,较低代表更高质量用好语言模型:temperature、top-p等核心参数解析_程序员_Baihai IDP_InfoQ写作社区
token条件概率计算公式如下:
退火条件概率分布:随着T的设置按照比例将概率分布加和为1
1.2 大模型相关历史回顾
1.2.1 熵,N-gram
熵的值越小,序列结构性越强,编码长度越短,log1/p(x)可以代表x的编码长度
N-gram:预测字符x只依靠前n-1个字符(计算效率高,但统计效率低下,难以捕捉长时间依赖)