Prodigy-HF与Hugging Face集成技术解析

介绍Prodigy-HF:与Hugging Face的直接集成

Prodigy是由某机构开发的标注工具,该公司以创建spaCy而闻名。这是一个完全可脚本化的产品,拥有庞大的社区。该产品具有许多功能,包括与spaCy的紧密集成和主动学习能力。但产品的主要特点是可通过Python进行编程定制。

为了促进这种可定制性,某机构开始发布插件。这些插件以开放的方式与第三方工具集成,鼓励用户处理定制化的标注工作流程。然而,有一个特定的定制值得特别庆祝。上周,某机构推出了Prodigy-HF,它提供了直接与Hugging Face技术栈集成的代码配方。这是Prodigy支持论坛上备受期待的功能。

功能

第一个主要功能是,该插件允许您在标注数据上训练和重用Hugging Face模型。这意味着如果您在我们的界面中为命名实体识别标注数据,可以直接基于此微调BERT模型。

安装插件后,您可以从命令行调用hf.train.ner配方,直接在您自己的数据上训练Transformer模型。

python -m prodigy hf.train.ner fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

这将针对您存储在Prodigy中的数据集微调distilbert-base-uncased模型并将其保存到磁盘。类似地,该插件还通过非常相似的接口支持文本分类模型。

python -m prodigy hf.train.textcat fashion-train,eval:fashion-eval path/to/model-out --model "distilbert-base-uncased"

这提供了很大的灵活性,因为该工具直接与Hugging Face transformers的AutoTokenizer和AutoModel类集成。只需一个命令,就可以在您自己的数据集上微调模型中心上的任何Transformer模型。这些模型将在磁盘上序列化,这意味着您可以将它们上传到Hugging Face Hub,或重新使用它们来帮助您标注数据。这可以节省大量时间,特别是对于NER任务。要重新使用训练好的NER模型,您可以使用hf.correct.ner配方。

python -m prodigy hf.correct.ner fashion-train path/to/model-out examples.jsonl

这将为您提供一个与之前类似的界面,但现在模型预测也将在界面中显示。

上传

第二个同样令人兴奋的功能是,您现在还可以将标注的数据集发布到Hugging Face Hub。如果您有兴趣分享其他人希望使用的数据集,这非常棒。

python -m prodigy hf.upload <dataset_name> <username>/<repo_name>

我们特别喜爱这个上传功能,因为它鼓励协作。人们可以彼此独立地标注自己的数据集,但在与更广泛的社区共享数据时仍然受益。

更多功能即将推出

我们希望这种与Hugging Face生态系统的直接集成能够让许多用户进行更多实验。Hugging Face Hub为广泛的任务和语言提供了许多模型。我们真诚希望这种集成使数据标注变得更加容易,即使您有更特定领域和实验性的用例。

该库的更多功能正在开发中,如果您有更多问题,请随时在Prodigy论坛上联系我们。

我们还要感谢Hugging Face团队对此插件的反馈,特别是建议添加上传功能的某专家。谢谢!
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值