无监督调研

一.无监督
1.传统的机器学习无监督
机器学习无监督
目前网上介绍的无监督学习,主要是机器学习方向,以聚类和降维为主,不太适用目前工程项目.
2.深度学习无监督

待补坑

二.自监督学习

自监督思考
无监督特征学习
自监督学习属于无监督学习,在深度学习中,经常遇到的问题是没有足够的标记数据,而手工标记数据耗费大量时间且人工成本高昂。基于此,自我监督学习成为深度学习的研究热点,旨在从未标记样本中进行学习,以缓解数据标注困难的问题。自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。自监督学习的目标很简单,即训练一个模型使得相似的样本具有相似的表示,然而具体实现却困难重重。经过谷歌这样的诸多先驱者若干年的研究,自监督学习如今已取得一系列的进步与发展。
如何定义自监督学习?
自监督学习是指用于机器学习的标注(ground truth)源于数据本身,而非来自人工标注。
自监督学习首先属于无监督学习,因此其学习的目标无需人工标注。其次,目前的自监督学习领域可大致分为两个分支。
第一个是用于解决特定任务的自监督学习,例如场景去遮挡,以及自监督的深度估计、光流估计、图像关联点匹配等。
另一个分支则用于表征学习。有监督的表征学习,一个典型的例子是 ImageNet 分类。而无监督的表征学习中,最主要的方法则是自监督学习。自监督目前是国内大厂主要研究的一个方向,目前主要是谷歌,Facebook,DeepMind,自监督表征学习分两部分,一类是对比学习,需要负样本,如方法NPID/MoCo/MoCo v2/InfoMin,一类是不需要负样本的BYOL.

自监督分类
xingneng

一般自监督表征学习可以做特征提取和图像分类,图像分类Linear Evaluation具体来说就是固定 unsupervised learning 得到的模型, 然后在上面接一个全连接层, 在训练集上面进行 supervised learning 的训练,二是Semi-supervised training首先用 unsupervised learning 得到的模型当做初始化, 然后用 supervised learning 的方式 finetune 整个网络, 但是在 fine-tune 的时候只用整个数据集的一小部分.
BYOL后接的讨论

1.商汤和香港中文大学
OpenSelfSup,Open-MMLab自监督表征学习
代码库介绍链接
代码链接
自监督中其中比较有名的算法:
①BYOL:Bootstrap Your Own Latent
OpenSelfSup中包含的算法
讨论网址
介绍链接
②谷歌Simclr
代码链接

三.其他

①自监督用于模糊转清晰,号称速度5s,未来可能有一定的应用前景.
模糊转清晰介绍
代码链接
②异常检测,目前测试效果不理想,可以再朝这个方向探索一下.
介绍链接
代码链接

四.名词解释
无监督对比学习contrastive learning

### 无监督学习的定义 无监督学习是一种机器学习方法,其核心在于对未标注的数据进行建模和分析[^1]。与监督学习不同,无监督学习并不依赖于带有标签的训练数据集,而是试图发现数据中的潜在模式或结构[^2]。这种学习方式通常被用来解决探索性数据分析问题,例如聚类、降维以及异常检测。 --- ### 无监督学习的原理 无监督学习的核心原理是基于统计学的方法来挖掘数据内部的关系和特性[^4]。具体来说: - **目标模糊**:无监督学习没有明确的目标变量(即标签),因此它的主要目的是揭示隐藏在数据中的内在规律。 - **无需标注**:由于不需要人工标注数据,这种方法特别适合大规模数据集的初步分析。 - **效果难以量化**:因为缺乏清晰的标准答案,评估无监督学习的效果往往更具挑战性。 典型的技术实现包括但不限于以下几种: - 聚类算法:如K-Means、层次聚类等,旨在将相似的对象分组在一起。 - 维度约减技术:如主成分分析(PCA),通过线性变换降低高维空间中的冗余信息[^5]。 --- ### 常见的无监督学习算法 以下是几类常用的无监督学习算法及其基本工作流程: #### K-Means 聚类 这是一种经典的划分型聚类算法,其目标是最小化簇内的平方误差之和。该算法的主要步骤如下: 1. 随机初始化若干个质心; 2. 将每个样本分配到最近的质心所属类别; 3. 更新各簇的新质心位置; 4. 迭代执行第2步至收敛条件满足为止。 ```python from sklearn.cluster import KMeans import numpy as np X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]) kmeans = KMeans(n_clusters=2).fit(X) print(kmeans.labels_) ``` #### 主成分分析 (PCA) PCA 是一种重要的降维工具,能够提取出最能代表原始数据变化方向的几个正交轴。其实现过程涉及以下几个阶段: 1. 计算输入矩阵 \( X \) 的协方差矩阵 \( S \)[^5]; 2. 对 \( S \) 或标准化后的相关系数矩阵求解特征值分解; 3. 投影原数据到由前 k 大特征向量构成的新坐标系下完成降维操作。 ```python from sklearn.decomposition import PCA pca = PCA(n_components=2) data_transformed = pca.fit_transform(data_original) ``` --- ### 应用场景 无监督学习因其灵活性强且适应范围广,在多个领域得到了广泛应用: 1. **客户细分**: 商业公司常采用无监督学习来进行市场调研,比如根据用户的购买行为将其划分为不同的群体以便制定针对性营销策略。 2. **推荐系统构建**: 利用协同过滤思想,通过对用户兴趣爱好的隐含关联建模从而提供个性化商品建议。 3. **生物医学研究**: 在基因表达谱分析方面发挥重要作用,帮助科学家识别疾病亚型或者预测药物反应情况。 4. **网络安全防护**: 自动探测网络流量中的可疑活动迹象,及时预警可能存在的攻击威胁。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值