38、自动术语提取与推特健康信息分析

自动术语提取与推特健康信息分析

自动术语提取方法

在自动术语提取领域,传统方法存在一定局限性。传统方法通过比较焦点语料库和参考语料库中词汇单元的相对频率来确定术语候选词。具体公式为:
[
\text{Keyness Score} = \frac{L_t + 1}{L_r + 1} \times \frac{C_r}{C_t}
]
其中,$L_t$ 是焦点语料库中词汇单元的频率,$C_t$ 是焦点语料库中的总词数,$L_r$ 是参考语料库中词汇单元的频率,$C_r$ 是参考语料库中的总词数。如果关键度得分高于 1,该词汇单元就会被列入术语候选列表。例如,“多项式”在代数教科书(7 - 9 年级)的焦点子语料库中的关键度得分是 743.18,表明其作为术语候选词的地位很高。

多词表达的选择分两个阶段进行:
1. 第一阶段 :从相应子语料库中至少出现三次的所有可能的词汇单元组合中,选择具有正 Log - Dice 得分的搭配/组合。Log - Dice 得分计算公式为:
[
14 + \log\left(\frac{2(|X \cap Y|)}{(|X| + |Y|)}\right)
]
其中,$|X|$ 是组合中第一个元素在子语料库中的绝对频率,$|Y|$ 是组合中第二个元素在子语料库中的绝对频率,$|X \cap Y|$ 是整个组合在子语料库中的绝对频率。
2. 第二阶段 :使用与单个单词选择相同的公式计算所选搭配的关键度得分。例如,“函数图像”在代数教科书(7 - 9 年级)的焦点子语料库中的关键度得分是 725.930,同样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值