1.7 万物皆可“向量”:深入浅出理解词嵌入(Word Embedding)的奥秘
引言:为语言赋予“空间”意义
在我们深入构建自己的大语言模型之前,必须解决一个最根本的问题:计算机不理解文字,它们只理解数字。我们如何将人类丰富、细腻、充满模糊性的语言,翻译成机器可以处理的、精确的数学形式?这就是**词嵌入(Word Embedding)**技术要解决的核心问题。
“嵌入”这个词听起来可能有些抽象,但它的思想却异常直观。想象一下,我们想用一组坐标来表示世界上的所有城市。我们可能会用(经度,纬度)这两个数字来表示一个城市在地球上的物理位置。类似地,词嵌入的目标,就是为我们词汇表中的每一个词语,都找到一个对应的坐标,将它“嵌入”到一个高维的数学“空间”中。
这个空间的奇妙之处在于,它是一个**“意义空间”**。在这个空间里:
- 意思相近的词语,它们的坐标也相互靠近(例如,“猫”和“狗”的距离很近)。
- 词语之间的关系,可以通过向量运算来体现(例如,
向量(国王) - 向量(男人) + 向量(女人)的结果,会非常接近向量(女王))。词嵌入技术是整个自然语言处理(NLP)领域的基石,也是所有大语言模型处理文本的第一步。没有它,模型就无法理解词语之间的语义关系,只能将其看作一堆独立的符号。
本章节将带你深入探索词嵌入的奥秘。我们将从最朴素的想法(One-hot编码)出发,理解其局限性,然后
订阅专栏 解锁全文
1005

被折叠的 条评论
为什么被折叠?



