OneGen项目中的多跳问答数据问题解析与解决方案-优快云博客

OneGen项目中的多跳问答数据问题解析与解决方案

在OneGen项目的多跳问答(multi_hop_qa)数据集使用过程中，开发者可能会遇到训练数据中positive字段为空的情况。经过项目团队的解释，这种情况源于数据标注过程的特殊性。

该项目的数据标注完全由Qwen72B模型自动完成，未进行人工监督。虽然原始数据集(2wiki和hotpotqa)中的每个问题都设计为至少需要两跳推理，但在某些情况下，Qwen模型可能只提供了一跳推理的答案。项目团队认为这种单跳推理的数据不符合多跳问答的要求，本应被过滤掉。

然而，在实际处理中，项目团队选择保留这些数据，主要基于两点考虑：

在使用multi_hop_qa数据训练Qwen2模型时，开发者可能会遇到模型生成无法停止的问题。这表现为模型不断重复生成内容而无法输出终止符。

根本原因在于训练数据中缺少了结束符号(eos token)。项目团队提供了两种解决方案：

在数据中的每个</FINAL-ANSWER>标签后手动添加模型对应的结束符号。例如，对于Llama2模型，应修改为</FINAL-ANSWER> </s>。

修改模型配置文件(llama2.json)中的info-data-train字段，将templator设置为Llama2Templator。该模板处理器会自动添加</s>结束符号。

在实施方案二时，开发者可能会遇到模板处理器的断言错误。这通常是由于输入数据格式与模板处理器预期不符导致的。

要解决这个问题，开发者需要：

项目团队建议开发者可以通过编写测试代码来验证模板处理器的正确性，例如使用示例数据测试模板处理器的包装功能是否正常工作。

基于这些经验，对于使用OneGen项目进行多跳问答模型训练的开发者，建议遵循以下实践：

通过遵循这些实践，开发者可以更有效地利用OneGen项目进行多跳问答模型的训练和优化。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考