本文时清华大学刘知远教授于 2018 年 5 月 26 日在中关村分享 HowNet 讲座时记录的笔记。
讲座详情:https://mp.weixin.qq.com/s/QyRGYU8-Fl4VcJFuUPhoTQ
一、深度学习特点
- 分布式表示
- 层次结构
二、自然语言的表示
自然语言包含从汉字到文档的多粒度语言单位,词汇、短语、句子、文档
- 语义符号表示:词袋模型(one - hot)
- 忽略了词复杂的语义关系,假定语言之间是正交的.
- 深度学习时代,纯数据驱动方法,语义分布表示:word2vec
- 每个词用向量表示,在大规模语料里,用相加的向量来预测新词,然后使得概率最大化.
- 可以发现词与词的隐含关系.
- 分布式表示的优势:解决大规模 NLP 的数据稀疏问题,实现跨领域和跨对象的知识迁移,提供多任务学习的统一底层表示
- 能够将不同语言粒度的语言单位,提供统一的语义比空间表示
三、分布式表示的缺点
- 可解释性差:几百维的向量表示词在空间中的位置,但是绝对位置没有意义,只有词的相对位置才有位置。用同样语料学习向量,同样词的位置可能是不一样的,但是相对位置是一样的,并且学习的位置没有意义和含义,只有相对位置才有意义。
- 鲁棒性差:当预料中的词比较少的时候,学习的位置是及其不稳定的.
四、自然语言的特点
词汇或者汉字是