生物知识数据库的置信标记物研究
在生物学和医学领域,从科学文献中提取可靠的知识至关重要。本文将介绍一种通过识别和分类置信标记物来评估知识可靠性的方法,以及该方法在与阿尔茨海默病相关基因研究中的应用。
1. 置信标记物的概念
置信标记物是指能够隐含或明确传达信息,用于证明从文本中提取的知识可靠性的各种元素。这些元素可以分为内在和外在两类,包括:
- 语言修饰词(hedges) :如“might”“maybe”等表示作者对断言不确定的词汇。
- 语言和语法模态 :例如使用被动语态、特定的语气等。
- 期刊影响因子(impact factor) :反映期刊发表的文章在学术界的影响力和可信度。
- 研究类型 :实验研究、理论研究、临床实验等不同类型的研究对知识的可靠性有不同的影响。
- 作者所属机构 :知名机构的作者发表的文章可能更具可信度。
- 文章发表日期 :较新的研究可能更能反映当前的科学进展。
在本次研究中,主要考虑前三种类型的置信标记物。
2. 研究材料
研究使用了三个来自Pubmed的语料库:
| 语料库名称 | 描述 | 规模 |
| — | — | — |
| CaRPI | 由160个疑似与阿尔茨海默病相关的人类候选基因生成,包含355篇摘要,817个句子,213,618个单词,大小为1MB。 | 355篇摘要 |
超级会员免费看
订阅专栏 解锁全文
762

被折叠的 条评论
为什么被折叠?



