生物医学主题分类算法与F-度量优化策略
1. 引言
在生物医学领域,对科研论文进行主题分类是一项重要任务。“JRS 2012数据挖掘竞赛”就聚焦于这一问题。竞赛组织者收集了包含20000篇期刊文章的文档集,这些文章来自PubMed Central开放获取子集,并由生物医学专家使用MeSH副标题进行标注。
竞赛数据分为训练数据和测试数据。训练数据包含一个 $m×n$ 的特征矩阵 $X$ 和一个 $m×l$ 的分类矩阵 $Y$,其中 $m = 10000$ 是训练集中文章的数量,$n = 25640$ 是特征(MeSH术语)的数量,$l = 82$ 是类别(主题)的数量。测试数据仅包含一个 $q×n$ 的矩阵 $X2$,任务是为测试集揭示一个 $q×l$ 的分类矩阵 $Y2$。
参与者的提交结果使用平均F分数进行评估,公式如下:
[
\frac{1}{q} \sum_{i = 1}^{q} \frac{2 \sum_{j = 1}^{l} a_{ij}y_{ij}}{\sum_{j = 1}^{l} a_{ij} + \sum_{j = 1}^{l} y_{ij}}
]
其中,$||a_{ij}|| {q×l}$ 是提交的解决方案,$||y {ij}||_{q×l}$ 是正确的分类矩阵。
2. 算法组合
解决方案的核心思想是将简单算法进行融合。使用不同算法可以显著提高性能,而且简单算法更可靠且易于调整。
设 $q×l$ 矩阵 $E = ||e_{ij}|| {q×l}$ 是算法的输出,称为估计矩阵,其中 $e {ij}$ 是第 $i$ 个