读书人想要点数据，怎么能叫偷呢？要叫借, 也可以叫Self-Instruct

最新推荐文章于 2025-12-27 16:51:58 发布

原创

最新推荐文章于 2025-12-27 16:51:58 发布 · 1.5k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

借东风的第二个章节

第一章传送门：不敢想象自动给训练数据打标签能有多爽 (qq.com)

上一篇文章主要介绍了Auto Label，属于比较委婉的借，迂回的借，另外Auto Label，它借出来的数据，还是偏重于传统的NLP任务训练，什么分类啊，标准QA啊之类的。众所周知，现在言必称GenAI，如果不是做这个的，都不是很好意思和人打招呼，那GenAI的训练数据，我们能直接借出来吗？

答案肯定是Yes，我们不但要"借"，而且要狠狠地"借"！

今天介绍一个"借"数据的方法，当然不是唯一的，但是是我觉得比较简单，而且是经过实际验证过的方法，这个方法就是Self-Instruct

论文地址：

2212.10560.pdf (arxiv.org)

如果读过相关论文的各位，想必了解到它就是Alpaca的获取数据方法，这里给没读过的朋友普及一下Alpaca是啥？

Llama大家都知道，源自于Meta做的模型，现在已经成为开源世界的标配，在Llama出道的不久，Stanford基于 Meta 的 LLaMA 7B 模型微调出一个

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

周博洋K

关注关注

44
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

性能翻倍！链式思考优化AI原生应用的实战技巧

架构师的AI之路，分享AI应用开发架构的学习与实践。

08-05

756

响应慢得像“挤牙膏”，用户等得不耐烦；成本高得“肉疼”，每轮对话的Token费用能买一杯奶茶；推理“不靠谱”，明明简单的问题却答非所问？这些痛点的根源，往往不是模型不够强，而是AI的“思考方式”太混乱——就像人做数学题不写步骤直接猜答案，既慢又容易错。本文将带你用链式思考（Chain of Thought, CoT）重新“训练”AI的思考逻辑：从Prompt拆解到系统架构优化，用8个可落地的实战技巧，帮你实现响应速度翻倍、成本减半、准确率提升的目标。

【LLM】self-instruct 构建指令微调数据集

发现问题，并解决问题，批判性思维

07-18

7909

四部曲：指令生成；分类任务识别；实例生成；过滤和后处理。为了实证评估SELF-INSTRUCT，在GPT3（Brown等人，2020）上运行该框架，在这个模型上的SELF-INSTRUCT迭代过程产出了大约52K条指令，以及大约82K个实例输入和目标输出对。结果数据提供了多种多样的创造性任务，其中50%以上的任务与种子指令的重合度低于0.3 ROUGE-L（§4.2）。可以利用生成的指令数据微调其他大模型。二、具体过程 1. 指令生成 175个种子任务（每个对应1个指令+1个实例），从该任务池中随机抽取

1 条评论您还未登录，请先登录后发表或查看评论

低成本高效率：用anything-llm替代传统知识管理系统

weixin_31938351的博客

12-22

644

传统知识系统难找信息，anything-LLM结合RAG与本地大模型，让文档能“对话”。支持多格式上传、中文优化、私有部署，企业可低成本构建智能问答中枢，销售、法务、开发者都能拥有会溯源的AI助手。

多模态数据处理系统：用AI读PDF的智能助手系统分析

Debroon

07-24

1140

多模态PDF识别子解法（因为PDF包含图文混合特征） + 锚点文本辅助子解法（因为需要位置信息辅助理解特征） + 文档结构化解析子解法（因为文档存在层级标题结构特征） + 知识图谱三元组抽取子解法（因为需要提取原子事实和关键元素特征） + 并发处理优化子解法（因为多页处理效率特征）双卡 48G 显存可部署，单卡 22 G 只能用 3B多模态模型 + 7B语言模型。这些局限性都直接来源于代码实现，体现了当前系统的技术约束。

A002-186-2639-高艳萍

m0_46527226的博客

12-27

1201

性能要求(performance requirement) https://www.ibm.com/support/knowledgecenter/en/ssw_aix_71/performance/doc_perf_reqs.html https://checkpointech.com/what-performance-requirements/ http://agileload.com/agileload/blog/2012/11/16/performance-testing-requirements.

51c大模型~合集151

whaosoft~aiotの开发板商城

07-08

2321

说实话，学生们感受到的压力更大。KAG 框架 V0.8 版本为 Thinker 模型应用提供支持，融入 KAG 框架后的 Thinker 模型， Math、Deduce 都使用框架中的求解器进行求解，再用 Thinker 模型进行答案汇总，可以看到 KAG-Thinker 7B 的平均 EM 和 F1 性能相比于 Thinker 模型平均提升 3.0%，3.8%。这种问题 Thinker 模型拆分不稳定，主要的原因有两种，第一，LLM 对复杂的纯自然语言问题拆分存在不一致，第二，7B 模型的泛化能力有限。

超全的英语短句汇集

热门推荐

幽客独往

02-12

6万+

English 900 英语九百句常用职位英文译名超级短句成语集锦打开话匣子PC电脑词汇一百个绝佳句型李阳英语365句托福听力常用短语校园英语迷你惯用语洋话连篇至理名言English 900 英语九百句第一册一、 Greetings 问候语 1. hello! / hi! 你好！ 2. good morning / afternoon / evening! 早晨（下午/晚上）好！ 3. i

英语四级单词

xxiyy0411的博客

12-18

2万+

// ==UserScript== // @name 背单词 // @description 边上网边刷英语四级单词 // @namespace Xiaomaxin // @version 1.31 // @author Xiaomaxin // @include * // @require http://cdn.bootcss.com

大学英语四级考试大纲

weixin_34032779的博客

10-24

7168

A a art.一(个)；每一(个)abandon vt.丢弃；放弃，抛弃ability n.能力；能耐，本领able a.有能力的；出色的abnormal a.不正常的；变态的aboard ad.在船(车)上；上船about prep.关于；在…周围above prep.在…上面；高于abroad ad.(在)国外；到处absence n.缺席，不在场；缺乏absent ...

英语基础词汇

小忐忑的博客

02-19

4万+

高频1500 today soul song consider sell pause river ugly delay finish angry bear welcome poor railway growth bus pilot past possession unit dress else mention hill uncle loss distance accept hang hurry quite officer mark war outside soldier than former praise

精选资源

self-instruct 自动生成指令数据

12-13

【标题】: "self-instruct 自动生成指令数据在大模型中的应用与优势" 【描述】: "self-instruct 是一种提升预训练语言模型遵循指令能力的方法，通过自动生成指令来增强模型泛化性能。" 【标签】: "大模型模型 ...

基于ChatGPT构建的中文self-instruct数据集_self-instruct-zh.zip

09-16

通过self-instruct-zh数据集，开发者可以更精准地训练和优化他们的模型，使其在翻译、文本摘要、对话系统、情感分析等多个应用场景中发挥更大的作用。此外，self-instruct-zh数据集的推出也推动了中文AI技术的普及...

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

qq_22146161的博客

12-25

1136

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享下

net3m33的专栏

12-25

550

做了一块可以调用百度云语音识别api和语音合成tts接口的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享

4神经网络框架

最新发布

2301_81531626的博客

12-27

692

本文系统介绍了神经网络的基本框架和发展过程。首先指出线性模型的局限性，说明其无法拟合复杂非线性关系。接着引入分段线性曲线和Sigmoid函数，通过参数调节实现曲线拟合。随后详细阐述了神经网络的构建过程：从单输入扩展到多特征输入，引入矩阵运算简化表达式，并说明激活函数的作用。最后介绍深度学习中ReLU激活函数的优势，其简单计算特性可有效组合成复杂曲线。全文通过数学公式和图示相结合，清晰展现了神经网络从线性模型到深度学习框架的演进逻辑。

第N11周：seq2seq翻译实战-Pytorch复现

m0_46260522的博客

12-26

409

5.2 注意力解码器（AttnDecoderRNN）7.2 训练迭代主循环。

Q-learning 算法 —— 无模型（model-free）强化学习

一杯水果茶！足矣~

12-25

1172

从已知模型到 Model-free 的强化学习转变：Q-Learning 算法，通过详细示例来讲解，理解 Q-table 的更新和贪婪策略

2025国自然资助率12.29%创新低！2026年如何用数据与AI“破局”？

imbackneverdie的博客

12-25

882

这绝非简单的文字堆砌，它内在嵌入了对国自然申报规范的理解，能有效帮你规避常见的“方向偏离”“逻辑混乱”“格式错误”等基础问题，将你从繁琐的框架搭建中解放出来，专注于核心内容的精雕细琢。国自然2025年的资助率降至历史新低的12.29%，数万科研人员面对着更激烈的竞争与更严格的评审标准，对于2026年度的申报者而言，“高效准备，少走弯路”已不是口号，而是生存法则。它不仅告诉你“是什么”，更分析“为什么”和“怎么办”，直接为你的选题方向和立项论证提供坚实的数据支撑。模块，堪称科研人员的“选题外脑”。

【AI学习-comfyUI学习-第二十五节-Shuffle洗牌模式布局+contronet其他应用结合-各个部分学习】

qq_22146161的博客

12-27

599

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

self-instruct合成数据教程

03-20

好的，我现在需要处理用户关于“self-instruct合成数据”的查询。首先，我得确认用户的具体需求。他们提到了寻找教程、生成方法和示例，因此回答需要涵盖这三个方面。接下来，我需要回忆一下self-instruct的基本...