法律文书数据集构造规范
数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分
构造方法:
见本目录下法律文书自构建数据集样例和法律文书样例
样例文书中红色框部分为开庭信息部分,计划不通过大模型生成,在应用层面设置方法
样例文书蓝色框部分为案情事实,注意是“经法庭审理查明”后的一段话,并非“某某人民检察院控告:”或其他;该部分作为数据集instruction部分
样例文书绿色框部分,即判决结果部分(“本院认为:” 之后),作为数据集output