21、自然语言处理:新词发现与命名实体及关键词提取

自然语言处理:新词发现与命名实体及关键词提取

1. 新词发现
1.1 特征计算与候选词排序

在获取候选词集后,需要对语料库进行二次扫描,以计算候选词集中每个词的邻接熵和互信息值。这里选择二元模型(bigram model)进行重新扫描,而非在条件随机场(CRF)模型的分词结果中计算特征,原因如下:
- 使用CRF模型会导致额外的磁盘空间消耗。
- CRF分词模型对未登录词的分词主要依赖上下文的边界信息,语料库中的候选词不一定在所有位置都能正确分词,因此需要使用基于词表和语言模型的分词算法进行重新分词和特征计算。
- 二元分词的速度足够快。

在二元分词过程中,记录每个候选词两侧出现的词以及候选词本身的频率,前者用于计算邻接熵,后者用于计算互信息。获取每个候选词的邻接熵和互信息值后,去除邻接熵和互信息最低的10%的候选词,并使用线性插值法获取每个候选词的权重,公式如下:
[
\text{权重} = \alpha \frac{H_{adj}}{H_{max}}+(1 - \alpha)\frac{M}{M_{max}}
]
其中,(H_{adj})是候选词的邻接熵,(H_{max})是所有候选词邻接熵的最大值,(M)是候选词的互信息,(M_{max})是候选词互信息的最大值,(\alpha)是一个权重系数。使用该公式计算候选词集的词后,根据权重对候选词进行降序排序,权重越大,排名越高,候选词成为新词的概率也越高。最后,提取排序结果的前30 - 40%作为新词。

下面是这个过程的mermaid流程图:

graph
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值