语言模型表征结构分析
1. 理解模型行为与表征结构的必要性
在研究模型的输入 - 输出模式时,我们能够发现其行为中反复出现的模式,并推断模型可能学到的策略,但对于某些模式出现的原因,我们只能进行推测。例如,若一个模型在数的一致性方面表现出色,我们并不清楚它是掌握了英语中主语位置的单数名词需与相应单数形式的主动词匹配的规则,还是仅仅学习了词汇共现情况(如“cat”与“purrs”的共现频率高于“purr”)。甚至,我们无法确定模型是否建立了同一名词单复数形式之间的联系。为了更好地理解模型如何对输入进行编码以及组织知识,我们需要深入研究其内部表征。
2. 分析表征结构的方法
在神经语言模型中,输入以高维向量空间的形式进行表征,并且这些表征会根据预训练目标进行优化。当前的训练目标基于分布假设,即根据词元出现的上下文来确定它们之间的关系。根据这种基于使用的语言理解方式,向量表征的质量并非由向量的绝对位置决定,而是由它们在向量空间中的相对分布决定。在表征空间内,实例之间的关系通过表征相似性来推断。
2.1 表征相似性
语言的分布表征通常旨在将相似的输入映射到向量空间中彼此接近的向量。最常用的量化两个向量 (x) 和 (y) 之间表征距离的数学指标是余弦相似度,其计算公式为:
[
\cos(x, y) = \frac{x \cdot y}{|x| \cdot |y|}
]
当两个向量方向相同时,结果接近 1;方向相反时,接近 -1。它可直接用于表示相似性,也可通过用 1 减去该值来表示距离。
- 词之间的相似性 :概念上,两个语言输入之间
超级会员免费看
订阅专栏 解锁全文
2128

被折叠的 条评论
为什么被折叠?



