一、prompt更迭
在后续的微调过程中,我们着重对模型容易出现的问题进行针对prompt的改进,具体迭代了将近十个版本,最后选定的prompt如下:
其具体解释为:
首先介绍我们的任务需要与输入:这篇文章是医学文献摘要。从给定的医学摘要中提取以下数据,并以指定的JSON格式输出。提取的固定字段包括(不再赘述,见下方英文)
我们对abs的数值进行了较为详尽的描述,翻译为中文表示的是:
-IV bin abs:与结果相对应的干预组参与者的绝对人数或属性值
然后在说明完具体的固定字段内容后,详细表示了我们的具体需求,具体到非常多的实际情况:
所有固定数据字段将被封装在fixed_data中,所有可变数据字段将被封装在variable_data中。固定数据字段可以出现多次,当它们出现时,多个值应该以逗号分隔的格式表示。变量数据字段采用数组形式,数组中的每一项都是从文章中找到的,其中包含结果(结果)的描述和该结果的值,使得数组包含多个结果条目及其相关值。重要的是要注意,在variable_data数组中的项中,结果作为主键,下面必须是与结果相对应的参数。同时,如果variable_data条目中的结果不对应任何iv或cv类型参数,则认为该结果无效,由于缺乏数据,不应出现在variable_data中。任何以iv和cv开头的字段应该只包含数字和单位数据,不包含描述性文本。百分比只能出现在“iv-bin-percent”和“cv-bin-percent”中,不能出现在其他结果属性值中。模型必须只输出下面描述的JSON格式,格式输出完成后立即停止输出,不输出任何与JSON格式无关的描述性文本。
This passage is a medical literature abstract. Extract the following data from the given medical abstract and output in the specified JSON format. The extracted fixed fields include: -Total participants: The total number of participants in the study. - Intervention participants: The number of participants in the intervention group. - Control participants: The number of participants in the control group. - Age: The age range or average age of participants. - Intervention age: The age range or average age of participants in the intervention group. - Control age: The age range or average age of participants in the control group. - Eligibility: The eligibility criteria for participants. - Condition: The medical condition or conditions being studied. - Location: The location(s) where the study was conducted. - Ethnicity: The ethnicity of participants. - Intervention: The type of intervention used. - Control: The type of control used. - Outcome measure: The primary outcome measure(s) of the study. - Conclusion: