【机器学习】半监督学习：未标记样本的奥秘与实践

原创于 2025-11-21 10:53:11 发布 · 848 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #大数据 #数据挖掘 #学习 #聚类 #开发语言

机器学习专栏收录该内容

93 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

1. 半监督学习的登场

在机器学习的广阔领域中，监督学习和无监督学习是两种广为人知的学习范式。监督学习依赖大量有标签数据进行模型训练，比如在图像分类任务里，需要事先标注好每张图片所属类别，模型通过学习这些有标签数据来掌握分类模式，进而对新数据进行分类预测。但收集和标注数据往往需要耗费大量人力、物力和时间，成本极高。无监督学习则主要用于发现数据中的内在结构和模式，像聚类算法将数据划分成不同簇，但它无法直接完成分类等需要标签信息的任务。

半监督学习应运而生，它结合了监督学习和无监督学习的特点，旨在利用少量有标签数据和大量无标签数据进行模型训练。在实际应用中，获取无标签数据相对容易，成本也低得多。例如在医学图像分析中，医院里存在海量未标注的医学影像，而请专业医生标注这些影像的工作量巨大。半监督学习就提供了一种可能，借助这些大量的未标注影像数据，再结合少量已标注数据，训练出性能良好的模型，用于疾病诊断等任务。

在半监督学习中，未标记样本扮演着举足轻重的角色。它们蕴含着丰富的数据分布和潜在结构信息，虽然没有明确的标签指示类别，但通过合适的算法挖掘和利用这些信息，能极大提升模型的泛化能力和性能。比如在文本分类任务中，有大量未标记的新闻文章，通过半监督学习方法，可以让模型学习到这些文章的主题分布、词汇关联等信息，结合少量已标注分类的文章，就能让模型更好地对新文章进行分类。接下来，我们深入探讨未标记样本在半监督学习中的具体应用和实现。

2. 认识未标记样本

2.1 它是谁

未标记样本，从字面意思理解，就是没有被赋予明确类别标签或目标值的数据样本。在许多实际场景中，收集到的数据往往处于原始状态，这些就是未标记样本。比如在收集到的一批图像数据中，图像仅仅是像素信息的集合，没有任何关于图像内容类别（如是否为猫、狗、汽车等）的标注；在文本数据里，一篇篇文章只是文字的堆砌，没有被标记为新闻、小说、评论等类别。与之形成鲜明对比的是标记数据，标记数据是已经明确了类别标签或目标值的数据，像在图像分类任务中，被人工标注为 “猫”“狗” 等类别的图像，以及在情感分析任务中，被标记为 “正面”“负面”“中性” 情感的文本。这些标记信息就如同为数据点亮了一盏明灯，让模型能明确学习的方向。而未标记样本虽然没有这盏 “明灯”，但却蕴含着大量关于数据分布和特征的潜在信息，等待着合适的算法去挖掘。

2.2 为何重要

未标记样本在半监督学习中占据着举足轻重的地位，对提升模型性能有着不可忽视的作用。大量未标记样本能为模型提供更全面的数据分布信息。假设我们要训练一个区分苹果和橙子的图像分类模型，如果仅有少量已标记的苹果和橙子图像，模型可能只能学习到有限的特征模式。但当引入大量未标记的水果图像后，模型可以学习到更广泛的水果图像特征分布，比如不同光照条件、拍摄角度下水果的特征，从而更准确地区分苹果和橙子，提升模型的泛化能力，使其能更好地应对新的、未见过的图像。

未标记样本还能显著降低数据收集和标注成本。在许多领域，如医疗影像分析、天文数据处理等，获取大量有标记数据需要耗费巨大的人力、物力和时间。专业医生标注医学影像需要丰富的专业知识和大量时间，天文学家标注天文图像也面临类似困境。而获取未标记样本相对容易且成本低，利用半监督学习方法结合少量标记样本和大量未标记样本，就能在降低成本的同时达到较好的模型性能，这使得半监督学习在实际应用中具有极大的优势和可行性。

3. 半监督学习核心算法及未标记样本运用

3.1 自训练法

自训练法是一种简单而直观的半监督学习算法，其基本步骤如下：首先，利用少量有标记样本训练一个初始模型，这个初始模型就像是一个刚入门的学习者，虽然知识有限，但已经具备了初步的判断能力。以文本分类为例，我们用少量已标注类别的新闻文章训练一个朴素贝叶斯分类模型。接着，使用这个训练好的模型对大量未标记样本进行预测，为未标记样本生成伪标签，这就好比让这个刚入门的学习者去尝试给其他未分类的文章进行分类标注。然后，从这些带有伪标签的未标记样本中筛选出置信度较高的样本，置信度可以理解为模型对自己预测结果的把握程度。比如模型预测一篇文章属于 “体育” 类别的概率高达 0.9，那这个预测的置信度就很高。将这些高置信度的样本与原来的有标记样本合并，形成一个新的训练集。最后，使用这个新的训练集重新训练模型，让模型学习到更多的知识和模式，不断提升性能。这个过程就像学习者在不断实践和学习中逐渐成长，变得更加专业和准确。如此迭代循环，直到模型性能不再提升或者达到预设的迭代次数。在图像分类任务中，通过不断迭代自训练，模型可以学习到更多不同姿态、场景下物体的特征，从而提高分类的准确率。

3.2 标签传播法

标签传播法是一种基于图结构的半监督学习算法，其核心原理基于 “相似的数据点应该有相似的标签” 这一假设。我们将所有数据（包括有标记样本和未标记样本）看作图中的节点，如果两个数据点之间的相似度很高，就在它们对应的节点之间连一条边，边的权重大小表示两个节点的相似程度。比如在图像数据中，两张内容相似、特征相近的图像对应的节点之间的边权重就会较大。在标签传播过程中，有标记节点的标签信息会沿着边传播到未标记节点。具体来说，算法会迭代更新每个节点的标签，每次更新时，节点会根据其邻居节点的标签情况来更新自己的标签。假设一个未标记节点有多个邻居节点，其中大部分邻居节点的标签为 “正类”，那么这个未标记节点就很可能被更新为 “正类” 标签。以社交网络用户分类为例，已知部分用户的兴趣类别（有标记样本），通过分析用户之间的关注关系（图结构）和相似性，将这些已知的兴趣类别标签传播给其他未标注兴趣类别的用户（未标记样本），从而实现对所有用户的兴趣分类。当所有节点的标签不再发生变化时，算法收敛，完成对未标记样本的标签预测。这种方法充分利用了数据之间的内在结构和相似性信息，在数据具有明显的图结构特征时表现出色。

3.3 半监督支持向量机

半监督支持向量机（Semi-Supervised Support Vector Machines，S3VM）是支持向量机在半监督学习领域的扩展。在传统的监督学习中，支持向量机的目标是寻找一个能将不同类别有标记样本最大化间隔分开的超平面。而在半监督学习中，S3VM 不仅要考虑有标记样本，还要结合未标记样本的信息。它的基本假设是 “低密度分隔” ，即分类超平面应该位于数据低密度区域，这样可以更好地划分不同类别的数据，同时也能利用未标记样本所蕴含的数据分布信息。在模型训练过程中，S3VM 首先利用有标记样本训练一个初步的分类超平面。然后，将未标记样本纳入考虑，通过调整超平面的位置，使得超平面不仅能正确分类有标记样本，还能尽可能地将未标记样本划分到低密度区域。具体实现时，通常会为未标记样本分配伪标签，并将有标记样本的分类损失和未标记样本基于伪标签的分类损失结合起来，构建一个综合的目标函数进行优化。在文本情感分类任务中，利用少量已标注情感倾向的文本（有标记样本）和大量未标注的文本（未标记样本），S3VM 可以学习到更准确的情感分类边界，提高情感分类的准确率。不过，由于涉及到未标记样本和伪标签，S3VM 的优化问题通常比较复杂，可能需要采用一些特殊的优化算法来求解。

4. 实践：半监督学习中未标记样本的实现

4.1 准备工作

在开展半监督学习实践前，首先要收集合适的数据集。数据集的收集来源多种多样，以图像分类任务为例，可以从公开的图像数据库如 CIFAR-10、MNIST 等获取数据，也可以通过网络爬虫从图片分享网站上采集特定类别的图像。在收集文本数据用于情感分析时，可从社交媒体平台、影评网站等收集用户评论。收集到的数据往往是原始且杂乱的，需要进行预处理。对于图像数据，预处理步骤通常包括图像的归一化，即将图像的像素值缩放到 0 - 1 或 - 1 - 1 的范围内，以统一数据的尺度，提升模型训练效果；还包括图像的裁剪和缩放，将图像调整为统一的尺寸，方便后续模型处理，如将不同尺寸的猫狗图像统一缩放为 224×224 像素。对于文本数据，预处理一般有分词操作，把连续的文本分割成一个个词语，比如使用 NLTK（Natural Language Toolkit）库中的分词工具；去除停用词，像 “的”“是”“在” 等没有实际语义的常用词，减少数据噪声，提高模型效率；还可以进行词干提取或词形还原，将词语还原为基本形式，如将 “running” 还原为 “run” 。通过这些预处理步骤，将原始数据转化为适合模型输入的格式。

4.2 Python 实现

以 scikit - learn 库为例，实现半监督学习利用未标记样本的过程。首先，导入必要的库：

from sklearn.semi_supervised import LabelPropagation

from sklearn.datasets import make_classification

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

接着，生成或加载数据集，并划分训练集和测试集：

# 生成分类数据集，这里用make_classification生成模拟数据，实际应用中可加载真实数据集

X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_classes=3, random_state=42)

# 将数据集按70%训练集、30%测试集的比例划分

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

然后，模拟未标记样本，将训练集中一部分样本的标签设为 - 1 表示未标记：

# 将训练集中50%的样本设为未标记样本，实际应用中未标记样本是自然存在的未标注数据

num_unlabeled = int(len(X_train) * 0.5)

y_train[:num_unlabeled] = -1

选择半监督学习模型，这里使用标签传播算法：

# 初始化标签传播模型，可根据实际情况调整参数，如核函数类型、正则化参数等

label_propagation = LabelPropagation()

训练模型：

# 使用包含未标记样本的训练集进行模型训练

label_propagation.fit(X_train, y_train)

最后，进行预测并评估模型性能：

# 用训练好的模型对测试集进行预测

y_pred = label_propagation.predict(X_test)

# 计算预测准确率，评估模型在测试集上的性能，还可使用其他评估指标如召回率、F1值等

accuracy = accuracy_score(y_test, y_pred)

print(f"Accuracy: {accuracy}")

4.3 结果评估

评估半监督学习模型效果时，常用的评估指标有准确率（Accuracy），它是分类正确的样本数占总样本数的比例，计算公式为：Accuracy = (TP + TN) / (TP + TN + FP + FN)，其中 TP 表示真正例，TN 表示真反例，FP 表示假正例，FN 表示假反例。召回率（Recall），在正类样本中，被正确预测为正类的样本数占正类样本总数的比例，对于关注正类样本识别的任务很重要，计算公式为：Recall = TP / (TP + FN) 。F1 值（F1 - score），是准确率和召回率的调和平均数，综合反映了模型在精确性和完整性方面的性能，当准确率和召回率都高时，F1 值才会高，计算公式为：F1 = 2 * (Precision * Recall) / (Precision + Recall)，其中 Precision 是精确率，计算公式为：Precision = TP / (TP + FP) 。可以使用这些指标对模型在测试集上的预测结果进行评估，对比不同半监督学习算法或不同参数设置下模型的性能，从而选择最优的模型和参数。例如，在多个不同参数配置的标签传播模型实验中，通过比较它们在测试集上的 F1 值，确定能使模型性能最佳的参数组合。

5. 挑战与应对策略

5.1 面临的挑战

虽然未标记样本在半监督学习中有着诸多优势和应用，但在实际应用中也面临着一些挑战。首先是标签质量难以保证，在自训练等算法中，需要为未标记样本生成伪标签，但初始模型的预测能力有限，生成的伪标签可能存在错误。比如在图像分类任务中，初始模型可能将一张模糊的猫的图像错误地预测为狗，将这个错误的伪标签加入训练集后，可能会误导模型学习到错误的特征和模式，从而降低模型的性能。此外，未标记样本的标签分布可能与标记样本不一致，这会导致模型在学习过程中出现偏差。在情感分析任务里，标记样本可能主要来自积极和消极情绪较为明显的文本，而未标记样本中包含大量中性情绪文本，模型在学习时可能会因为这种分布差异而难以准确把握情感分类的边界。

处理大量未标记样本会增加模型训练的复杂度和计算成本。标签传播算法需要构建图结构并进行多次迭代计算，随着未标记样本数量的增加，图的规模增大，计算边的权重、进行标签传播的计算量都会大幅上升，导致训练时间显著增加。在实际应用中，可能需要处理数百万甚至更多的未标记样本，这对硬件计算资源和算法效率都提出了很高的要求。而且，半监督学习方法通常依赖一些假设，如平滑假设、聚类假设等。在某些复杂的数据分布情况下，这些假设可能不成立。在图像数据中，存在一些样本处于不同类别之间的过渡区域，它们的特征既相似又不完全属于某一个明确类别，此时平滑假设就难以适用，模型可能无法准确地对这些样本进行分类，进而影响整体性能。

5.2 解决办法

针对标签质量问题，可以采用多种策略来优化标签生成。使用更复杂、性能更好的初始模型来生成伪标签，在图像分类中，使用预训练的深度卷积神经网络模型代替简单的浅层模型，能提高初始预测的准确性，从而生成质量更高的伪标签。还可以结合多个模型的预测结果来生成伪标签，比如通过集成学习的方法，让多个不同结构或参数的模型对未标记样本进行预测，然后综合这些模型的预测结果，如采用投票法或平均法来确定最终的伪标签，这样可以降低单个模型预测错误的影响，提高伪标签的可靠性。

为应对模型复杂度增加和计算成本上升的问题，可以采用模型融合的方式。将半监督学习模型与其他轻量级模型进行融合，先用半监督学习模型利用未标记样本学习到数据的整体特征和模式，再用轻量级模型进行快速的预测和推断。在文本分类中，先使用基于深度学习的半监督学习模型进行特征提取和初步分类，再结合简单的朴素贝叶斯模型进行快速的类别判断，既能利用未标记样本提升性能，又能减少计算量。还可以对未标记样本进行采样或聚类，选取具有代表性的样本参与模型训练，减少样本数量，降低计算复杂度。在大规模图像数据中，通过聚类算法将相似的图像聚成一类，只选取每个类中的部分样本作为未标记样本参与训练，既能保留数据的主要特征，又能有效减少计算量。

针对假设不成立的情况，需要不断探索和改进算法。开发不依赖特定假设的半监督学习算法，或者使算法能够自适应数据分布的变化。一些基于深度学习的半监督学习算法，通过引入注意力机制等技术，让模型能够自动学习数据中的重要特征和模式，而不依赖于传统的假设。在实际应用中，也可以根据数据的特点和领域知识，对假设进行适当的调整和修正，在医学影像分析中，结合医学专业知识，对数据的分布和特征进行深入理解，从而更好地应用半监督学习算法。

6. 总结与展望

半监督学习作为机器学习领域中极具潜力的方向，巧妙地融合了少量有标记样本与大量未标记样本，在众多实际应用场景中展现出独特的优势。未标记样本在半监督学习里扮演着关键角色，它不仅蕴含着丰富的数据分布与结构信息，还能显著降低数据标注成本，为提升模型性能与泛化能力提供了有力支持。

通过自训练法、标签传播法和半监督支持向量机等核心算法，我们能够有效地挖掘和利用未标记样本中的信息。自训练法通过迭代为未标记样本生成伪标签并不断更新模型，如同一个自我学习、不断成长的过程；标签传播法基于图结构，依据 “相似的数据点应具有相似标签” 的假设，将标签信息在节点间传播，充分利用了数据间的内在联系；半监督支持向量机则通过引入未标记样本，对传统支持向量机进行扩展，以寻找更优的分类超平面。

在实践中，从数据收集与预处理，到利用 Python 和 scikit - learn 库实现半监督学习模型，再到使用准确率、召回率和 F1 值等指标对模型性能进行评估，每一个环节都至关重要，它们共同构成了一个完整的半监督学习实践流程。然而，半监督学习在应用过程中也面临着诸多挑战，如标签质量难以保证、计算成本高昂以及算法假设与实际数据分布不符等问题。但通过采用优化标签生成策略、模型融合以及改进算法等应对措施，我们能够在一定程度上克服这些困难，推动半监督学习的实际应用。

展望未来，随着人工智能技术的飞速发展，半监督学习有望在更多领域取得突破。在医疗领域，利用大量未标记的医学影像数据，结合少量已标记数据，有望训练出更精准的疾病诊断模型，辅助医生进行更准确的诊断；在金融领域，对半监督学习的应用可以帮助识别更多潜在的金融风险模式，实现更有效的风险评估与管理；在自动驾驶领域，通过利用道路场景中的大量未标记数据，结合少量有标记的安全驾驶和危险驾驶场景数据，能够提升自动驾驶系统对复杂路况的识别和应对能力，保障行车安全。

算法创新将是半监督学习发展的重要方向。未来，研究人员可能会开发出更加智能、高效的算法，这些算法将不再局限于现有的假设和方法，能够更好地适应各种复杂的数据分布和应用场景。与深度学习的深度融合也将为半监督学习带来新的机遇。深度学习强大的特征提取和模型表达能力，与半监督学习利用未标记数据的优势相结合，有望构建出性能更卓越的模型，推动人工智能技术迈向新的高度。可以预见，半监督学习在未来的人工智能发展中必将发挥越来越重要的作用，为解决各种实际问题提供更有效的解决方案。

您可能感兴趣的与本文相关的镜像