以知识为中心的语义文本摘要方法与异常红细胞检测技术
在当今信息爆炸的时代,文本摘要和医学图像中异常细胞的检测都具有重要意义。文本摘要能够帮助人们快速获取关键信息,而异常红细胞的自动检测则有助于医学诊断的高效性和准确性。
以知识为中心的语义文本摘要方法
提出的架构
该文本摘要系统架构首先对数据集进行预处理,包括解析、分词、词形还原和停用词去除。分词基于空格和特殊字符进行,以获取单个单词;词形还原则是从词的形态中推导出基本形式。接着使用TF - IDF进行特征提取,其公式为:
[Tf - idf (j, k) = tf (j, k) \times \log(\frac{l}{df + 1})]
其中,(j)是术语(单词),(k)是文档,(l)是语料库(单词集合)的数量。
基于文档中的稀有特征和最频繁的单词,将领域本体和知识源进行集成。领域本体是基于从数据集中提取的术语构建的静态领域本体,知识源采用Wikidata,通过其API获取与文档相关的知识源。
然后构建基于术语的本体模型,通过估计交叉熵、NPMI和ANOVA - NPMI的交集来实现。交叉熵函数表示为:
[H(Pp, Qq) = -\sum_{m \in X} Pp(m) \times \log(Qq(m))]
为消除句子重复提取中的相似单词,使用归一化的PMI(NPMI),其通过MIN - MAX归一化PMI值得到。PMI公式为:
[PMI(x, y) = \log(\frac{pa(x, y)}{pa(x) \times pb(y)})]
ANOVA - NPMI用于构建术语本体模型,并生成p值,根据
超级会员免费看
订阅专栏 解锁全文
9647

被折叠的 条评论
为什么被折叠?



