自然语言处理中的新词发现技术解析
1. 新词发现概述
语言作为一种活的实体,会随着社会的变化而演变,新词的出现是这种演变的关键标志。在中国词汇的发展历程中,不同时代都有反映当时社会、政治、经济、文化等方面的词汇。例如,上世纪七八十年代的“工分”“粮票”“布票”,随着改革开放的深入,“科学发展”“以人为本”“政府透明度”“笔记本电脑”“虚拟现实”等新词不断涌现,反映了社会经济的快速发展和对外交流的增加。
在自然语言处理领域,出现了新词和未登录词两个概念。未登录词通常指字典中未出现的词,而新词不仅未在字典中出现,还具有时间维度的动态概念。从字典角度看,新词是通过各种方式产生的,具有新形式、新意义或新用法;从时间角度看,新词是在特定时期或时间点之后首次出现的。
网络新词具有以下典型特征:
- 新颖性 :符合时代潮流,无论是由现有词汇演变而来还是用户创造性提出,都有新的意义和表达。
- 周期性 :依赖热点话题产生,部分新词会随事件热度降低而消失,部分则会保留。
- 快速传播 :基于网络平台产生和传播,意义简单易懂,能迅速被人们接受和使用。
- 不规则性 :形成自由随意,无固定格式,不严格遵循构词规则,在长度和构词符号上无限制。
目前,新词识别的主要方法有基于规则的方法、基于统计的方法以及规则与统计相结合的方法。基于规则的方法利用形态学原理,构建带有语义或词性信息的模板,通过匹配发现新词;基于统计的方法则通过统计分析语料中词汇的组成或特征信息来识别新词。基于规则的方法准确性高、针对
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



