MoDS: Model-oriented Data Selection for Instruction Tuning

本文主要用于记录学习的过程,如有理解错误的请指正。

该论文主要通过模型驱动,实现自动筛选高质量的Instruction tuning数据选取,实现大模型的能够和人类的意图进行对齐。

摘要:

一些论文证明Instruction tuning证明只需要很少的数据集就可以实现与人类意图对齐,并且大模型LLM并不能从Instruction tuning中学到东西,仅仅是生成一些可靠的格式。该论文提出通过模型,自动化选取一些少量并且高质量的数据。论文中认为从三个方面,Instruction tuning数据质量、多样性,以及必要性三个方面进行Instruction tuning数据的选取。

  • 对于数据质量:质量要求所选的指令数据对问题和答案都足够好。
  • 对于数据多样性:覆盖范围要求所选指令数据足够多样化。
  • 对于数据的必要性:必要性表明所选的指令数据确实填补了感兴趣的LLM的能力空白。

正文:

对于模型的设计,数据选择模型的设计从数据质量、多样性、必要性三个方面进行设计,模型结构图如下:
Refused

  • 数据质量:
    在这里插入图片描述
    数据质量则是利用huggingface已经训练的一个模型,reward-model-deberta v3-large去给Instruction tunning 数据进行打分,将数据中的(instruction, input, output)进行拼接在一起,作为打分模型的输入,设置一个阈值α\alphaα。超过这个阈值α\alphaα则认为是高质量的数据,否则亦然。
  • 数据多样性:
    对于数据多样性,则是体现大模型,回答是否更加多样性。采用K-Center-Greedy,进行实现。
    通过bert(或者其他向量模型)将文本转成向量,我理解就是实现一个K个中心点的算法,简单理解实现多个簇(肯能叙述不严谨),实现算法如下:
    在这里插入图片描述

必要性

必要性,主要是因为模型学习的内容和学习的程度不同,因此需要针对不同的模型去评估模型已经学习了哪些内容,在上述两个操作之后的结果A。对A进行补充额外的数据B。模型图如下所示:
在这里插入图片描述

如何获取数据B呢,首先我把A作为基础的数据集对LLM进行微调,然后评估微调的指令生成回答同样采用reward-model-deberta v3-large模型设置阈值β\betaβ, 如果小于β\betaβ,则通过K-Center-Greedy选择一个子集。就可以获得A的扩增数据B。

实验结果

在这里插入图片描述
消融实验:数据多样性次啊用K-center Greedy和随机采样进行对比
在这里插入图片描述

shizhong.a(33): error A48: DATA-ADDRESS EXPECTED shizhong.a(34): error A48: DATA-ADDRESS EXPECTED shizhong.a(35): error A48: DATA-ADDRESS EXPECTED shizhong.a(36): error A48: DATA-ADDRESS EXPECTED shizhong.a(37): error A48: DATA-ADDRESS EXPECTED shizhong.a(38): error A48: DATA-ADDRESS EXPECTED shizhong.a(39): error A48: DATA-ADDRESS EXPECTED shizhong.a(40): error A48: DATA-ADDRESS EXPECTED shizhong.a(113): error A39: REGISTER OPERAND EXPECTED shizhong.a(116): error A48: DATA-ADDRESS EXPECTED shizhong.a(121): error A48: DATA-ADDRESS EXPECTED shizhong.a(126): error A48: DATA-ADDRESS EXPECTED shizhong.a(131): error A48: DATA-ADDRESS EXPECTED shizhong.a(135): error A39: REGISTER OPERAND EXPECTED shizhong.a(140): error A39: REGISTER OPERAND EXPECTED shizhong.a(145): error A39: REGISTER OPERAND EXPECTED shizhong.a(174): error A48: DATA-ADDRESS EXPECTED shizhong.a(182): error A48: DATA-ADDRESS EXPECTED shizhong.a(186): error A48: DATA-ADDRESS EXPECTED shizhong.a(187): error A48: DATA-ADDRESS EXPECTED shizhong.a(191): error A48: DATA-ADDRESS EXPECTED shizhong.a(192): error A48: DATA-ADDRESS EXPECTED shizhong.a(214): error A22: EXPRESSION TYPE DOES NOT MATCH INSTRUCTION shizhong.a(215): error A22: EXPRESSION TYPE DOES NOT MATCH INSTRUCTION shizhong.a(232): error A48: DATA-ADDRESS EXPECTED shizhong.a(233): error A39: REGISTER OPERAND EXPECTED shizhong.a(234): error A48: DATA-ADDRESS EXPECTED shizhong.a(236): error A48: DATA-ADDRESS EXPECTED shizhong.a(270): warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS shizhong.a(279): warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS shizhong.a(288): warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS shizhong.a(303): warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS shizhong.a(311): warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS shizhong.a(343): error A45: UNDEFINED SYMBOL (PASS-2) shizhong.a(345): error A12: ILLEGAL FACTOR shizhong.a(384): error A45: UNDEFINED SYMBOL (PASS-2) shizhong.a(387): error A12: ILLEGAL FACTOR这是你写的代码出现的问题,请修改
11-03
### 错误分析与解决方法 #### error A48: DATA - ADDRESS EXPECTED 此错误通常意味着指令需要一个数据地址,但提供的内容不符合要求。可能是在使用指令时,操作数应该是一个有效的内存地址,却使用了其他类型的值。 **解决方法**: 检查指令中需要数据地址的操作数,确保其为有效的内存地址。例如,如果使用 `MOV` 指令将数据移动到内存地址,要保证目标操作数是合法的地址。 ```asm ; 错误示例 MOV A, [INVALID_ADDRESS] ; 这里假设 INVALID_ADDRESS 不是有效的地址 ; 正确示例 MOV A, 30H ; 30H 是一个有效的内存地址 ``` #### error A39: REGISTER OPERAND EXPECTED 该错误表示指令期望一个寄存器操作数,但提供的不是寄存器。汇编指令在某些情况下需要特定的寄存器作为操作数。 **解决方法**: 检查指令,确保使用的操作数是有效的寄存器。例如,在使用寄存器间接寻址时,需要使用 `R0` 或 `R1` 作为寄存器。 ```asm ; 错误示例 MOV A, [R2] ; R2 不能用于寄存器间接寻址 ; 正确示例 MOV A, @R0 ; R0 可以用于寄存器间接寻址 ``` #### error A22: EXPRESSION TYPE DOES NOT MATCH INSTRUCTION 此错误表明表达式的类型与指令不匹配。可能是指令要求的操作数类型与提供的表达式类型不一致。 **解决方法**: 检查指令对操作数类型的要求,确保表达式的类型与之匹配。例如,某些指令要求操作数是立即数,而提供的是寄存器。 ```asm ; 错误示例 ADD A, R0 + 3 ; 表达式类型可能不匹配 ; 正确示例 ADD A, #3 ; 使用立即数 ``` #### error A45: UNDEFINED SYMBOL (PASS - 2) 该错误意味着在汇编的第二遍扫描时,发现了未定义的符号。通常是因为使用了未声明的变量或标号。 **解决方法**: 检查代码中使用的所有符号,确保它们都已经被定义。如果是变量,要在程序开头进行声明;如果是标号,要确保其存在。 ```asm ; 错误示例 MOV A, UNDEFINED_VARIABLE ; UNDEFINED_VARIABLE 未定义 ; 正确示例 UNDEFINED_VARIABLE EQU 30H ; 定义变量 MOV A, UNDEFINED_VARIABLE ``` #### error A12: ILLEGAL FACTOR 此错误表示使用了非法的因子。可能是在表达式中使用了不合法的运算符或操作数。 **解决方法**: 检查表达式,确保使用的运算符和操作数都是合法的。例如,在进行算术运算时,要确保操作数的类型和范围符合要求。 ```asm ; 错误示例 MOV A, 3 / 0 ; 除数为 0 是非法的 ; 正确示例 MOV A, 3 / 1 ; 合法的算术运算 ``` #### warning A52: VALUE HAS BEEN TRUNCATED TO 8 BITS 该警告表示值被截断为 8 位。通常是因为使用了超过 8 位的数值,但指令只能处理 8 位数据。 **解决方法**: 检查使用的数值,确保其在 8 位范围内。如果需要处理更大的数值,可以考虑使用多字节操作。 ```asm ; 错误示例 MOV A, 0x1FF ; 0x1FF 超过 8 位 ; 正确示例 MOV A, 0xFF ; 0xFF 在 8 位范围内 ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值