Instruction finetuning

原创已于 2023-07-16 10:49:30 修改 · 283 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-07-13 17:13:14 首次发布

00.LLM 专栏收录该内容

11 篇文章

订阅专栏

FLAN-T5是谷歌提出的一种新的微调框架，它扩展了T5模型的能力，通过统一的输入输出格式和chain-of-thought机制，使得一个模型能处理超过1800种NLP任务，提升了模型的泛化性能。该框架降低了任务迁移的成本，展示了通用语言模型的巨大潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Instruction finetuning

---

T5，Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer，2019

arxiv https://arxiv.org/abs/1910.10683
中译 T5: Text-to-Text Transfer Transformer 阅读笔记 - 知乎
讨论如何评价 Google 提出的预训练模型 T5？ - 知乎

---

FLAN-T5,

文献阅读：Scaling Instruction-Finetuned Language Models_Espresso Macchiato的博客-优快云博客

谷歌FLAN-T5作者亲讲：5400亿参数，1800个任务，如何实现大语言模型“自我改进”

Flan-T5: One Model for ALL Tasks - 知乎

提出了Flan的微调框架: 统一的输入输出格式（4种类型），引入chain-of-thought，大幅提高任务数量，大幅提高模型规模.

实现了用一个模型来解决超过1800种几乎全部的NLP任务，通过较低的成本，极大发掘了现有语言模型的泛化性能，让大家看到了通用模型的希望，即One Model for ALL Tasks。

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models - 知乎

文献阅读：Scaling Instruction-Finetuned Language Models_Espresso Macchiato的博客-优快云博客

---

博客等级

码龄25年

74
原创

49
点赞

101
收藏

23
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: COT ，Emergent Abilities

下一篇：: Subword算法

最新评论

LM详解 GPT3，GPT2, GPT1 论文译读
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加条理清晰的目录；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
tensorflow_datasets 如何load本地的数据集
m0_52156487: 楼主，解压到....plain_text\\1.0.0后，运行报错AssertionError: Dataset imdb_reviews: could not find data in C:\Users\onepunch\tensorflow_datasets\ 是数据集地址不对吗？
tensorflow_datasets 如何load本地的数据集
weixin_41177458: 楼主，你这是在colab里面可以吧

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。