47、生物医学主题分类算法与F-度量优化策略

生物医学主题分类算法与F-度量优化策略

1. 引言

在生物医学领域,对科研论文进行主题分类是一项重要任务。“JRS 2012数据挖掘竞赛”就聚焦于这一问题。竞赛组织者收集了包含20000篇期刊文章的文档集,这些文章来自PubMed Central开放获取子集,并由生物医学专家使用MeSH副标题进行标注。

竞赛数据分为训练数据和测试数据。训练数据包含一个 $m×n$ 的特征矩阵 $X$ 和一个 $m×l$ 的分类矩阵 $Y$,其中 $m = 10000$ 是训练集中文章的数量,$n = 25640$ 是特征(MeSH术语)的数量,$l = 82$ 是类别(主题)的数量。测试数据仅包含一个 $q×n$ 的矩阵 $X2$,任务是为测试集揭示一个 $q×l$ 的分类矩阵 $Y2$。

参与者的提交结果使用平均F分数进行评估,公式如下:
[
\frac{1}{q} \sum_{i = 1}^{q} \frac{2 \sum_{j = 1}^{l} a_{ij}y_{ij}}{\sum_{j = 1}^{l} a_{ij} + \sum_{j = 1}^{l} y_{ij}}
]
其中,$||a_{ij}|| {q×l}$ 是提交的解决方案,$||y {ij}||_{q×l}$ 是正确的分类矩阵。

2. 算法组合

解决方案的核心思想是将简单算法进行融合。使用不同算法可以显著提高性能,而且简单算法更可靠且易于调整。

设 $q×l$ 矩阵 $E = ||e_{ij}|| {q×l}$ 是算法的输出,称为估计矩阵,其中 $e {ij}$ 是第 $i$ 个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值