机器学习与排序算法核心解析

最新推荐文章于 2025-11-24 15:59:30 发布

原创

最新推荐文章于 2025-11-24 15:59:30 发布 · 805 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 # 文本分类 # 排序学习

1、以文本分类为任务，以线性回归为算法，说明机器学习在这种情况下的四个组成部分。

1. **输入空间**：包含被研究的对象，通常对象由根据不同应用提取的特征向量表示。在文本分类中，输入空间是文本数据，文本会被转换为特征向量。

2. **输出空间**：有两种不同定义。任务的输出空间高度依赖应用：
   - 文本分类任务的输出空间是离散类别集合 {1, 2, …, K}；
   - 为便于学习过程的输出空间，由于使用线性回归技术解决文本分类问题，此输出空间是实数空间 ℝ。

3. **假设空间**：定义了将输入空间映射到输出空间的函数类。在线性回归中，假设函数形式为 *h(x) = w<sup>T</sup>x*，函数作用于输入对象的特征向量，并根据输出空间的格式进行预测。

4. **训练集和损失函数**：
   - 训练集包含从输入和输出空间的乘积中采样的多个对象及其真实标签。
   - 损失函数衡量假设生成的预测与真实标签的符合程度，常用的分类损失函数有指数损失、铰链损失和逻辑损失等。
   - 通过损失函数可在训练集上定义经验风险，通常通过经验风险最小化来学习最优假设。

2、请列出除Plackett–Luce模型外，可用于排序的排列概率模型。

Mallows模型

3、在实践中，人们更关心排名结果顶部位置的正确排序。因此，真正的损失不应是排列级别的 0 - 1 损失，而应针对前 k 个子集来定义。证明在这种新情况下，ListMLE 无法在真正损失方面得到最优排序器。说明如何修改 ListMLE 的损失函数，使其最小化能够最小化前 k 个真正损失。

根据定理 18.4，ListMLE 优化的代理损失函数与前 $k$ 个真正损失不一致，需要对算法进行修改以使其一致。具体做法是，将 ListMLE 中排列级别的 Plackett-Luce 模型替换为前 $k$ 个 Plackett-Luce 模型。实验结果表明，通过这样的修改，算法在前 $k$ 个真正损失方面的性能可以得到提升。