自然语言处理:新词发现与命名实体及关键词提取
1. 新词发现
1.1 特征计算与候选词排序
在获取候选词集后,需要对语料库进行二次扫描,以计算候选词集中每个词的邻接熵和互信息值。这里选择二元模型(bigram model)进行重新扫描,而非在条件随机场(CRF)模型的分词结果中计算特征,原因如下:
- 使用CRF模型会导致额外的磁盘空间消耗。
- CRF分词模型对未登录词的分词主要依赖上下文的边界信息,语料库中的候选词不一定在所有位置都能正确分词,因此需要使用基于词表和语言模型的分词算法进行重新分词和特征计算。
- 二元分词的速度足够快。
在二元分词过程中,记录每个候选词两侧出现的词以及候选词本身的频率,前者用于计算邻接熵,后者用于计算互信息。获取每个候选词的邻接熵和互信息值后,去除邻接熵和互信息最低的10%的候选词,并使用线性插值法获取每个候选词的权重,公式如下:
[
\text{权重} = \alpha \frac{H_{adj}}{H_{max}}+(1 - \alpha)\frac{M}{M_{max}}
]
其中,(H_{adj})是候选词的邻接熵,(H_{max})是所有候选词邻接熵的最大值,(M)是候选词的互信息,(M_{max})是候选词互信息的最大值,(\alpha)是一个权重系数。使用该公式计算候选词集的词后,根据权重对候选词进行降序排序,权重越大,排名越高,候选词成为新词的概率也越高。最后,提取排序结果的前30 - 40%作为新词。
下面是这个过程的mermaid流程图:
graph
超级会员免费看
订阅专栏 解锁全文
974

被折叠的 条评论
为什么被折叠?



