CS224n--Lecture 1 Introduction and Word Vectors

本文介绍了如何表示词的意思,从离散化表示到用语境表示词语的意义,重点讲解了Word2vec的基本思想、损失函数、计算过程以及为何采用两个词向量。Word2vec利用分布式语义,通过最大化向量点积来学习词向量,使得相似语境中的词具有相似的词嵌入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 如何表示词的意思(Meaning of a word)

meaning的定义是,一个词或短语表达出的主意,或是一个人想要用词语或符号表达的意思,或者是一个艺术作品或著作表达的意思。通常来讲,用一种语言学的方式去理解meaning,就是指定某个符号(字也可以看做是一种广义的符号)所指某个意思或者事物,也就是指称语义。在计算机科学中,指称语义是通过构造表达其语义的(叫做指称(denotation)或意义的)数学对象来形式化计算机系统的语义的一种方法。

2 如何获得在计算机中可用的语义

Wordnet是一个计算机可使用的词典,顾名思义,wordnet包含了同义词表和反义词表,这类在词与词之间的关系。

但是WordNet存在一些问题:

  • 没有两次词的意思是完全相同或者相反的,WordNet只是机械的将近似同义或某些情况下可以在相同语境下使用的词算作了同义词,反之亦然。这样势必会损失一些细节。例如:good和proficient,在某些语境下两者确实意思十分相近,但是直接把两者算作同义词又感觉比较牵强。
  • wordnet过于主观,没有办法指定明确的标准去衡量两个词的关系,全靠个人感觉。
  • Out of Date,wordnet很难去与时俱进添加新词或修改旧词的新用法,并且新词出现和一些灵活用法的出现的过程是十分频繁的,难以维护。
  • 需要大量人力去维护,不能自动化的创建和维护。
  • 难以用计算机计算两个词之间的相似程度。

3 离散化的表示词语

在传统的NLP中,常常使用离散符号表示词语。创建一个一定长度N的词表,然后将每个词语都表示成一个单热向量的形式,单热向量的维度等同于词表的长度。

这种表示方式同样存在很多问题:

  • 当词表过于长的时候这种表示方法效率很低。
  • 两个不同的单热向量永远是正交的,所以单热向量点积恒为0,导致两个词只要不相同则不能表示出两个词之间的关系。

因此引出了后面的方法,用向量的形式,让两个向量自己去学习它们之间的相似性。

4 用语境表示词语的意思

用语境表示词语的思想来源于分布式语义

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值