2024软件学院创新项目实训(3)--数据集制作

本篇博客记录数据集的生成,由于网络上没有关于考研政治的数据集,因此我们要从头开始寻找数据,上篇博客中提到,我们的大模型需要的数据集格式为json,我们希望寻找的数据为市面上流通的近几年的肖四肖八真题及考研政治真题,大多为pdf文件和doc文件,json中需要的也仅仅是政治题目的文本,直接将pdf中的文字提取转化为json显然是困难的,因此初步的任务流程为

pdf—>doc—>json

 搜寻到的肖四肖八真题及考研政治真题的pdf文件大部分为拍摄版本,用wps自带的pdf转doc功能可以初步实现,但是还需要对其格式进行调整,人工过滤一些无用的信息和删除一些没必要的空格,方便后续用python进行格式的转化。

此步耗费大量的人工,但是方便后续的python程序。

doc文件中有三种题型,单选题,多选题,综合题,单选题和多选题分为题干,答案和解析,综合题只有题干和解析,在最后的json文件中,我们希望获得下面的格式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值