本篇博客记录数据集的生成,由于网络上没有关于考研政治的数据集,因此我们要从头开始寻找数据,上篇博客中提到,我们的大模型需要的数据集格式为json,我们希望寻找的数据为市面上流通的近几年的肖四肖八真题及考研政治真题,大多为pdf文件和doc文件,json中需要的也仅仅是政治题目的文本,直接将pdf中的文字提取转化为json显然是困难的,因此初步的任务流程为
pdf—>doc—>json
搜寻到的肖四肖八真题及考研政治真题的pdf文件大部分为拍摄版本,用wps自带的pdf转doc功能可以初步实现,但是还需要对其格式进行调整,人工过滤一些无用的信息和删除一些没必要的空格,方便后续用python进行格式的转化。
此步耗费大量的人工,但是方便后续的python程序。
doc文件中有三种题型,单选题,多选题,综合题,单选题和多选题分为题干,答案和解析,综合题只有题干和解析,在最后的json文件中,我们希望获得下面的格式: