25、小样本与无标签数据处理策略

小样本与无标签数据处理

zero1

于 2025-09-29 15:22:03 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：从理论到实践文章标签：小样本学习无标签数据 FAISS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zero1/article/details/152595814

解密Transformer：从理论到实践专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

小样本与无标签数据处理策略

1. FAISS 与比较次数优化

在相关分析中，我们可以观察到比较次数与聚类数量之间的函数关系。我们的目标是找到这个函数的最小值，因为在该点所需的比较次数最少。实际情况是，最小值恰好出现在我们预期的位置，即 (2^{20} = 2^{10} = 1,024) 处。

FAISS 不仅可以通过分区来加速查询，还支持利用 GPU 进一步提升速度。如果内存成为问题，还可以使用先进的量化方案对向量进行压缩。若要将 FAISS 应用于项目，其仓库提供了简单的指南，可帮助我们为具体用例选择合适的方法。

FAISS 的一个大型应用案例是创建 CCMatrix 语料库。相关人员使用多语言嵌入来查找不同语言中的平行句子。这个庞大的语料库随后被用于训练 M2M100，这是一个能够直接在 100 种语言之间进行翻译的大型机器翻译模型。

2. 微调香草变压器模型

当我们有标注数据时，一种直接的方法是微调预训练的变压器模型。这里我们以标准的 BERT 检查点作为起点，后续将观察微调语言模型对性能的影响。

对于许多应用来说，从预训练的类 BERT 模型开始是个不错的选择。但如果我们的语料库领域与预训练语料库（通常是维基百科）有显著差异，那么可以在 Hugging Face Hub 上探索更多可用的模型，很可能有人已经针对我们的领域进行了预训练。

2.1 数据预处理

首先，我们需要加载预训练的分词器，对数据集进行分词，并去除训练和评估不需要的列：

import torch
from transfo

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。