文本语义表示与脑磁共振图像重建的深度学习方法研究
1. 文本语义表示方法
1.1 数据集介绍
在文本语义表示的研究中,使用了两个重要的数据集:
- OHSUMED (OH) 数据集 :它源自 Medline 数据库中的临床论文摘要子集,本研究使用了其中包含 5380 个文档的分区。
- WebKB 数据集 :由 CMU 文本学习小组通过 World Wide Knowledge Base (Web->Kb) 项目收集的计算机科学不同部分的网页组成。这些网页被分为七个不同的类别,本研究采用了预处理版本,包含四个不同类别,共 4199 个文档。
1.2 BoC 方法测试版本
对于 BoC 方法(与 BoWC 方法采用相同的方法),测试了两个版本:
- BoCCF - EDF :应用 CF - IDF 加权函数。
- BoCCF - EDF - FBKE :应用了由 BoWC 方法中使用的关键短语权重函数扩展的修改概念加权函数。
1.3 文档处理步骤
文档处理过程如下:
1. 文本预处理 :将文档中的文本转换为小写,并删除停用词、符号和数字。
2. 关键短语提取 :使用 FBKE 方法提取关键短语。具体操作是先提取长度为 2 - 4 的 n - grams,然后使用 Spacy 过滤这些短语,只保留根词频率高的名词短语(Spa
超级会员免费看
订阅专栏 解锁全文
7433

被折叠的 条评论
为什么被折叠?



