自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 ChatGLM微调 训练集配置

需要将数据集定义句子对的形式。这里的需要考虑下游任务,以及prompt的构造案例。我们的任务在于提取医学文献中的医学名词和数值,以及他们的对应关系。输出要求是JSON格式,以方便我们的后端进行JSON object的生成和绘制表格。因此我们需要生成prompt在系统提示词system中。

2024-06-24 02:28:19 526

原创 微调 ChatGLM 踩坑记录2 instructions设置

一个读懂指令的模型:通过instructions对我们的医学文本的关键词提取能够更为准确。并且通过instructions的设置,chatGLM能够更好地发现不同的实体之间的对应关系(只要我们给出了其中的规律)三更:在推理过程中,可以将instructions合并到context里面,形成一个大的context。通过 ChatGLM 来。

2024-06-24 02:07:24 422

原创 对医学文献的 meta分析 PICO

输入:一段医学文本的摘要,输出:两个表格,一个固定数据表格,内容包括该医学实验中的一些固定的参数和其对应值,一个outcome数据表格,内容包括该文献摘要中提及的本文献的outcome,其对应的outcome measure以及对应的值。outcome变为event,cv-bin-percent,iv-cont-mean,cv-cont-mean,iv-cont-median,cv-cont-median,iv-cont-sd,cv-cont-sd作为其属性。PICO的实体之间没有对应关系。

2024-06-24 01:51:40 894

原创 ChatGLM 微调 踩坑记录

转化完成后,得到train.json和test.json文件,其中由于是微调任务,我们可以直接将train的一部分用来test,减小工作量。导入PICO数据集到服务器,由于PICO是.ann类型的标注文件,我们需要把PICO文件转化成json格式的文件,并作为输入文件。官方采用的数据集是AdvertiseGen数据集,我们下载AdvertiseGen后,将其放在自建的data文件夹下。依次按照步骤,采用处理后的json文件进行训练和推理,注意更改命令中模型和数据集所在的真实路径。

2024-06-24 01:12:36 811

原创 autodl部署chatglm3-6b踩坑记录

注意requirements.txt里面标明了各个依赖需要的版本号范围,如果后面出现module类的错误,可以根据里面的版本号来重新安装对应的版本。这里踩坑:如果按照官网的教程用git去clone到auto-tmp的话,99%可能会超时,因为autodl服务器本身没法科学上网。修改/ChatGLM3/basic_demo/web_demo_gradio.py中的模型路径,将路径改为第三步中的本地模型路径。设置gradio的参数,server_port=6006,然后点击控制台面的 自定义服务,就可以了。

2024-05-31 12:08:30 1068 2

原创 autodl服务器使用踩坑记录

autodl服务器踩坑寄录。

2024-05-31 10:43:53 1737

原创 Brat 踩坑经验

环境:VMware ubuntu虚拟机前几天在用brat标注数据集,总结一下自己遇到的坑:参考博客部署brat并使用。

2024-05-31 10:16:21 820

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除