原创:王稳钺
资料来源:张春阳
词向量被应用在非常非常多的场景中,甚至可以说跟文字相关的互联网应用基本上都会跟词向量有关系。本文主要从应用、发展以及实战代码来介绍词向量。
1. 词向量的应用
搜索引擎是人们每天都在使用的产品,搜索引擎其实就是利用词向量技术来进行搜索的。搜索引擎是如何工作的呢?其实主要分为三步。第一步,搜索引擎需要爬取互联网上所有的文章,把这些文章全部都转化成词向量。第二步是要将搜索词也转化为词向量。最后一步就是用搜索词的词向量与文章转变成的词向量进行相似度的比较,再把与搜索词相似的文章返回给用户。
第二个应用也非常常见——头条新闻。今日头条之所以能做得像现在这么好,它背后最主要的商业逻辑就是它使用了推荐引擎,给不同的用户分发不同的内容。它是如何实现的呢?首先第一步就是把很多的新闻转换成向量。第二步就是根据用户的行为,比如点击、点赞、评论某个新闻,将用户也转化为向量。第三步与搜索引擎类似,就是将与用户向量相似的文章返回给用户。其实还有很多类似的应用,比如淘宝等电商平台。
2. 从文字到词向量
如何生成词向量呢?词向量是如何发展到现在的呢? 1946计算机诞生了。自从有了计算机之后,其实有很多伟大的先贤们一直在想着一个问题,就是怎么能够让计算机也能像人一样帮助人们去做一些事情,比如识别图像,比如”理解“文字。这里面最伟大的人物就是阿兰图灵,阿兰图灵发表了《计算机器与智能》这篇论文。这篇论文可能很多人都没听说过,但是图灵测试一定不陌生。图灵测试