监督学习的基本假设——联合概率分布,独立同分布

监督学习的基础假设涉及输入空间X和输出空间Y的联合概率分布P(X,Y)。这一分布描述了X和Y共同出现的概率。此外,数据点独立同分布意味着在相同的条件下,每个样本点的生成不受其他样本点的影响,且它们都遵循相同的概率分布。独立同分布的概念在概率统计中至关重要,特别是在分析和建模随机过程时,例如在机器学习算法的训练数据集构建中。" 53174738,5751503,Android 文件共享:FileProvider 实战详解,"['Android开发', '文件共享']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

输入空间X与输出空间Y遵循联合概率分布:
P ( X , Y ) P(X,Y) P(X,Y)并依联合概率分布P(X,Y)独立同分布产生。

联合概率分布:两个及以上随机变量组成的随机变量的概率分布

独立同分布&#

### 半监督学习常用方法和算法 #### 方法概述 半监督学习是一种介于监督学习和无监督学习之间的机器学习范式,它利用少量标记数据和大量未标记数据来提高模型性能。以下是常用的半监督学习方法: #### 1. **基于生成模型的方法** 这种方法的核心思想是假设数据的联合分布 \( p(x, y) \) 可以分解为 \( p(y)p(x|y) \),其中 \( p(x|y) \) 是已知的条件概率分布[^2]。通过引入大量的未标记数据,可以更精确地估计这些分布参数。 #### 2. **自训练算法(Self-Training)** 自训练是一种迭代式的半监督学习方法。初始阶段使用少量标记数据训练一个基础模型,随后用此模型对未标记数据进行预测,并将置信度较高的预测结果加入到标记数据集中,从而不断优化模型性能[^3]。 #### 3. **协同训练(Co-Training)** 当特征空间能够自然划分为两个独立子集时,可采用协同训练方法。具体而言,分别在两组不同的特征上训练两个分类器,然后互相提供高置信度的预测结果作为额外的标记数据用于对方的学习过程[^3]。 #### 4. **图半监督学习(Graph-based Semi-supervised Learning)** 此类方法把数据表示成图结构,节点代表样本点,边权值反映两点间的相似程度。借助拉普拉斯正则化项或其他机制,在图上传播已有标签信息至未知区域,最终实现全局标注推测[^3]。 #### 5. **低密度分离原则下的扩展技术——半监督支持向量机(Semi-Supervised SVMs, S³VMs)** 传统SVM仅依赖带标签样本来寻找最优超平面;而在SSVM框架下,则尝试综合考量所有可用资料(无论是否有明确类别归属),力求找到穿过较低密度区间的分界面位置[^3]。 ```python from sklearn.semi_supervised import LabelPropagation import numpy as np # 构造部分标记的数据矩阵 X 和对应的标签数组 labels (未标记样本设为 -1) X = [[0], [1], [2], [3]] labels = [-1, 0, 1, -1] model = LabelPropagation() model.fit(X, labels) print(model.predict([[0.5]])) ``` 上述代码片段展示了如何运用 `LabelPropagation` 进行简单的半监督学习任务处理。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值