25、处理少量标签数据的方法与技巧

处理少量标签数据的方法与技巧

1. FAISS 加速查询与应用

在某些场景中,我们可以通过绘图查看比较次数与聚类数量的函数关系,目标是找到该函数的最小值,此时所需的比较次数最少。经观察发现,最小值恰好在预期位置,即 (2^{20} = 2^{10} = 1024) 处。

FAISS 除了通过分区加速查询外,还支持利用 GPU 进一步提升速度。若存在内存方面的顾虑,也可借助先进的量化方案压缩向量。若要在项目中使用 FAISS,其仓库提供了简单的指南,可帮助我们为具体用例选择合适的方法。

Facebook 创建的 CCMatrix 语料库是使用 FAISS 的大型项目之一。该项目的作者利用多语言嵌入来查找不同语言中的平行句子,这个庞大的语料库随后被用于训练 M2M100,这是一个能够直接在 100 种语言之间进行翻译的大型机器翻译模型。

2. 微调 Vanilla Transformer

当我们拥有标注数据时,一个直接的做法是微调预训练的 Transformer 模型。这里以标准的 BERT 检查点作为起点,后续将观察微调语言模型对性能的影响。

对于许多应用而言,从预训练的类似 BERT 的模型开始是个不错的选择。但如果语料库的领域与预训练语料库(通常是维基百科)差异显著,建议在 Hugging Face Hub 上探索众多可用的模型,很可能有人已经在你的领域进行了预训练。

2.1 数据预处理

以下是加载预训练分词器、对数据集进行分词并去除训练和评估不需要的列的代码:

import torch
f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值