李宏毅机器学习笔记:非监督学习——word Embedding

本文探讨了非监督的WordEmbedding技术,通过count-based和prediction-based方法捕捉单词间的关系。count-based方法根据共现频率调整词向量,而prediction-based如CBOW和skip-gram模型利用上下文预测单词。神经网络模型通过线性隐藏层学习词向量,即使原始词汇中不存在的词也能被映射到最相似的类别。

引入

  • 想要知道这些单词种类之间的关系(动词?名词?行为?)即World Embedding
  • 是非监督的
    在这里插入图片描述

如何寻找它们的关系?(上下文之间的关系)

1. count based

如果WiW_iWi,WjW_jWj经常一起出现,那么V(Wi)V(W_i)V(Wi)V(Wj)V(W_j)V(Wj)的值就比较相近,尽量让它们的内积等于它们在文中同时出现的次数
在这里插入图片描述

Prediction based

输入第n-1个输入,得到第n个输出是某个单词的概率(用前面的单词雨愁眠的,不一定只是用前面一个单词,也可以是连续的多个,共享参数);把第一个隐藏层的输出取出来即是Word Embedding
在这里插入图片描述
在这里插入图片描述

Z=W(Xi−2+Xi−1)Z=W(X_{i-2}+X_{i-1})Z=W(Xi2+Xi1)

  • CBOW:用两边的单词预测中间的
  • skip-gram:用中间的预测两边的
    在这里插入图片描述
    图中的Neural Network只有一个线性的隐藏层
    在这里插入图片描述
    在图像上,假设输入为cat,在向量投影的Word Embedding上没有cat这一类的,模型可以把它归纳到最相似的dog类别
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值