- 博客(7)
- 收藏
- 关注
原创 ChatGLM微调 训练集配置
需要将数据集定义句子对的形式。这里的需要考虑下游任务,以及prompt的构造案例。我们的任务在于提取医学文献中的医学名词和数值,以及他们的对应关系。输出要求是JSON格式,以方便我们的后端进行JSON object的生成和绘制表格。因此我们需要生成prompt在系统提示词system中。
2024-06-24 02:28:19
526
原创 微调 ChatGLM 踩坑记录2 instructions设置
一个读懂指令的模型:通过instructions对我们的医学文本的关键词提取能够更为准确。并且通过instructions的设置,chatGLM能够更好地发现不同的实体之间的对应关系(只要我们给出了其中的规律)三更:在推理过程中,可以将instructions合并到context里面,形成一个大的context。通过 ChatGLM 来。
2024-06-24 02:07:24
422
原创 对医学文献的 meta分析 PICO
输入:一段医学文本的摘要,输出:两个表格,一个固定数据表格,内容包括该医学实验中的一些固定的参数和其对应值,一个outcome数据表格,内容包括该文献摘要中提及的本文献的outcome,其对应的outcome measure以及对应的值。outcome变为event,cv-bin-percent,iv-cont-mean,cv-cont-mean,iv-cont-median,cv-cont-median,iv-cont-sd,cv-cont-sd作为其属性。PICO的实体之间没有对应关系。
2024-06-24 01:51:40
894
原创 ChatGLM 微调 踩坑记录
转化完成后,得到train.json和test.json文件,其中由于是微调任务,我们可以直接将train的一部分用来test,减小工作量。导入PICO数据集到服务器,由于PICO是.ann类型的标注文件,我们需要把PICO文件转化成json格式的文件,并作为输入文件。官方采用的数据集是AdvertiseGen数据集,我们下载AdvertiseGen后,将其放在自建的data文件夹下。依次按照步骤,采用处理后的json文件进行训练和推理,注意更改命令中模型和数据集所在的真实路径。
2024-06-24 01:12:36
811
原创 autodl部署chatglm3-6b踩坑记录
注意requirements.txt里面标明了各个依赖需要的版本号范围,如果后面出现module类的错误,可以根据里面的版本号来重新安装对应的版本。这里踩坑:如果按照官网的教程用git去clone到auto-tmp的话,99%可能会超时,因为autodl服务器本身没法科学上网。修改/ChatGLM3/basic_demo/web_demo_gradio.py中的模型路径,将路径改为第三步中的本地模型路径。设置gradio的参数,server_port=6006,然后点击控制台面的 自定义服务,就可以了。
2024-05-31 12:08:30
1068
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅