16、利用关联规则识别受体和配体结构

利用关联规则识别受体和配体结构

在生物医学领域,识别受体和配体结构是一项重要任务。通过观察语料库发现,受体和配体名称常与能暗示其所属类别的术语一同出现。然而,孤立的术语可能无法有效识别这些结构。因此,探索术语间的关联规则,通过上下文识别和分类生物医学文献中的受体和配体结构,是一种有前景的方法。

1. 三步处理流程

为实现这一目标,提出了一个包含三个主要步骤的处理流程:
- 数据收集
- 数据挖掘
- 应用

下面是这个流程的 mermaid 流程图:

graph LR
    A[数据收集] --> B[数据挖掘]
    B --> C[应用]
2. 数据收集

在数据收集步骤中,使用了 GENIA 语料库版本 3.02,该语料库包含 2000 篇生物医学领域的文档(标题和摘要)。

2.1 文档选择

最初,仅选择可能与 RDD 领域相关的文档。选择标准基于 5 个预先选定的关键词:如果文档中至少出现其中一个关键词,则该文档可能涉及某种受体或配体结构。应用此标准后,选择了 798 篇文档。具体关键词、所选文档数量及总频率如下表所示:
| 关键词 | 文档数量 | 频率 |
| ---- | ---- | ---- |
| Docking | 8 | 12 |
| Drug | 46 | 57 |
| Ligand | 97 | 136 |
| Receptor | 615 | 1376 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值