场景
- 在信息抽取中,词语在文章中各个位置具有不同的权重。
- 把文章简单分为前中后三部分,某词出现在前面时有较大概率是关键词,出现在其它位置时有较小概率是关键词
- 例如某【日期类】实体在结尾出现的概率较大,故该实体结尾权重较高,在开头和中间出现的词极可能是伪实体
- 通常文章信息权重排序:开头>结尾>中间
步骤
- 统计实体在文章出现的位置
- 计算位置密度
- 计算位置权重(https://blog.youkuaiyun.com/Yellow_python/article/details/104504629)
from sklearn.gaussian_process import GaussianProcessRegressor
from matplotlib import pyplot as mp
在信息抽取中,词语在文章的前、中、后部分有不同的权重。通常开头权重最高,然后是结尾,中间最低。文章中的【日期类】实体在结尾出现权重高,开头和中间可能是伪实体。通过统计实体位置、计算位置密度和权重,可以预设免训练模型进行分析。
订阅专栏 解锁全文
2790

被折叠的 条评论
为什么被折叠?



