31、自监督学习:解锁数据潜力的新途径

自监督学习:解锁数据潜力的新途径

1. 自监督学习概述

想象一下,你身处茫茫大海中,口渴难耐,周围虽有大量的水,却无法饮用。但如果你有办法将海水中的盐分煮出来,使其变得可饮用,情况就不同了。不过,这个过程的能源成本可能很高,所以你可能会适度使用这个方法。然而,如果能源成本变得几乎为零,比如利用太阳能,那么大规模进行这个过程就更具吸引力了。

这个场景可以类比到机器学习领域。第一个场景类似于有监督学习,其最大的问题是收集带标签的训练数据需要耗费大量的时间和金钱,导致标注数据集通常相对较小。而深度学习模型往往比传统模型更复杂,需要更多的数据来训练,这就限制了有监督学习在扩展深度学习模型方面的应用。

完全无监督学习技术在目前取得的成功有限。自监督学习技术则提供了一种折中的方法,它利用数据的固有结构自动生成标签,为有监督学习模型提供数据。自监督学习是指巧妙地复用数据中隐式存在的标签,下面我们将探讨一些常见的自监督学习策略及其在自然语言处理、计算机视觉和音频信号处理等领域的应用。

1.1 相关前期工作

自监督学习并不是一个新概念,但随着基于Transformer的模型(如BERT和GPT - 2)的出现而变得流行。过去,自监督学习常被归类为无监督学习,不过早期有许多模型试图利用输入数据中的规律来取得与有监督学习相当的结果。
- 受限玻尔兹曼机(RBM) :是一种生成式神经网络模型,可学习输入数据的概率分布。它于1986年被发明,并在2000年代中期得到改进。可以在有监督或无监督模式下进行训练,可应用于降维、分类等多种下游任务。
- 自编码器(AEs) :是无监督学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值