利用关联规则识别受体和配体结构
在生物医学领域,识别受体和配体结构是一项重要任务。通过观察语料库发现,受体和配体名称常与能暗示其所属类别的术语一同出现。然而,孤立的术语可能无法有效识别这些结构。因此,探索术语间的关联规则,通过上下文识别和分类生物医学文献中的受体和配体结构,是一种有前景的方法。
1. 三步处理流程
为实现这一目标,提出了一个包含三个主要步骤的处理流程:
- 数据收集
- 数据挖掘
- 应用
下面是这个流程的 mermaid 流程图:
graph LR
A[数据收集] --> B[数据挖掘]
B --> C[应用]
2. 数据收集
在数据收集步骤中,使用了 GENIA 语料库版本 3.02,该语料库包含 2000 篇生物医学领域的文档(标题和摘要)。
2.1 文档选择
最初,仅选择可能与 RDD 领域相关的文档。选择标准基于 5 个预先选定的关键词:如果文档中至少出现其中一个关键词,则该文档可能涉及某种受体或配体结构。应用此标准后,选择了 798 篇文档。具体关键词、所选文档数量及总频率如下表所示:
| 关键词 | 文档数量 | 频率 |
| ---- | ---- | ---- |
| Docking | 8 | 12 |
| Drug | 46 | 57 |
| Ligand | 97 | 136 |
| Receptor | 615 | 1376 |
超级会员免费看
订阅专栏 解锁全文
4044

被折叠的 条评论
为什么被折叠?



