小样本与无标签数据处理策略
1. FAISS 与比较次数优化
在相关分析中,我们可以观察到比较次数与聚类数量之间的函数关系。我们的目标是找到这个函数的最小值,因为在该点所需的比较次数最少。实际情况是,最小值恰好出现在我们预期的位置,即 (2^{20} = 2^{10} = 1,024) 处。
FAISS 不仅可以通过分区来加速查询,还支持利用 GPU 进一步提升速度。如果内存成为问题,还可以使用先进的量化方案对向量进行压缩。若要将 FAISS 应用于项目,其仓库提供了简单的指南,可帮助我们为具体用例选择合适的方法。
FAISS 的一个大型应用案例是创建 CCMatrix 语料库。相关人员使用多语言嵌入来查找不同语言中的平行句子。这个庞大的语料库随后被用于训练 M2M100,这是一个能够直接在 100 种语言之间进行翻译的大型机器翻译模型。
2. 微调香草变压器模型
当我们有标注数据时,一种直接的方法是微调预训练的变压器模型。这里我们以标准的 BERT 检查点作为起点,后续将观察微调语言模型对性能的影响。
对于许多应用来说,从预训练的类 BERT 模型开始是个不错的选择。但如果我们的语料库领域与预训练语料库(通常是维基百科)有显著差异,那么可以在 Hugging Face Hub 上探索更多可用的模型,很可能有人已经针对我们的领域进行了预训练。
2.1 数据预处理
首先,我们需要加载预训练的分词器,对数据集进行分词,并去除训练和评估不需要的列:
import torch
from transfo
小样本与无标签数据处理
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



