词汇获取与马尔可夫模型:原理、应用与拓展
1. 词汇获取
1.1 信息来源
词汇获取并非仅依赖文本语料库,字典是其中一个重要信息源,此外还有百科全书、同义词词典、地名词典、专业词汇集以及其他可能有助于描述生僻词和名称的句法与语义属性的参考资料或数据库。
| 信息来源 | 说明 |
|---|---|
| 字典 | 有助于了解生僻词和名称的句法与语义属性 |
| 百科全书 | 提供广泛的知识信息,辅助词汇理解 |
| 同义词词典 | 帮助掌握词汇的同义表达 |
| 地名词典 | 针对地理相关词汇有详细信息 |
| 专业词汇集 | 满足特定领域的词汇需求 |
1.2 聚焦文本的原因
目前词汇获取主要聚焦于文本,原因在于单词相较于从音频和视觉数据中自动提取的特征,对内容的描述歧义性更小。不过,随着语音识别和图像理解技术的发展,有望将词汇的语言表征建立在非文本媒体提供的更丰富语境中。据估计,一个普通受过教育的人一年阅读约一百万个单词,但听到的口语词汇量是阅读量的十倍。若能有效利用这一丰富信息源,词汇获取的效率有望取得突破。
超级会员免费看
订阅专栏 解锁全文
1089

被折叠的 条评论
为什么被折叠?



