10、语言模型表征结构分析

语言模型表征结构分析

1. 理解模型行为与表征结构的必要性

在研究模型的输入 - 输出模式时,我们能够发现其行为中反复出现的模式,并推断模型可能学到的策略,但对于某些模式出现的原因,我们只能进行推测。例如,若一个模型在数的一致性方面表现出色,我们并不清楚它是掌握了英语中主语位置的单数名词需与相应单数形式的主动词匹配的规则,还是仅仅学习了词汇共现情况(如“cat”与“purrs”的共现频率高于“purr”)。甚至,我们无法确定模型是否建立了同一名词单复数形式之间的联系。为了更好地理解模型如何对输入进行编码以及组织知识,我们需要深入研究其内部表征。

2. 分析表征结构的方法

在神经语言模型中,输入以高维向量空间的形式进行表征,并且这些表征会根据预训练目标进行优化。当前的训练目标基于分布假设,即根据词元出现的上下文来确定它们之间的关系。根据这种基于使用的语言理解方式,向量表征的质量并非由向量的绝对位置决定,而是由它们在向量空间中的相对分布决定。在表征空间内,实例之间的关系通过表征相似性来推断。

2.1 表征相似性

语言的分布表征通常旨在将相似的输入映射到向量空间中彼此接近的向量。最常用的量化两个向量 (x) 和 (y) 之间表征距离的数学指标是余弦相似度,其计算公式为:
[
\cos(x, y) = \frac{x \cdot y}{|x| \cdot |y|}
]
当两个向量方向相同时,结果接近 1;方向相反时,接近 -1。它可直接用于表示相似性,也可通过用 1 减去该值来表示距离。

  • 词之间的相似性 :概念上,两个语言输入之间
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值