Ccccyaaa-优快云博客

原创 ChatGLM微调训练集配置

需要将数据集定义句子对的形式。这里的需要考虑下游任务，以及prompt的构造案例。我们的任务在于提取医学文献中的医学名词和数值，以及他们的对应关系。输出要求是JSON格式，以方便我们的后端进行JSON object的生成和绘制表格。因此我们需要生成prompt在系统提示词system中。

2024-06-24 02:28:19 526

原创微调 ChatGLM 踩坑记录2 instructions设置

一个读懂指令的模型：通过instructions对我们的医学文本的关键词提取能够更为准确。并且通过instructions的设置，chatGLM能够更好地发现不同的实体之间的对应关系（只要我们给出了其中的规律）三更：在推理过程中，可以将instructions合并到context里面，形成一个大的context。通过 ChatGLM 来。

2024-06-24 02:07:24 422

输入：一段医学文本的摘要，输出：两个表格，一个固定数据表格，内容包括该医学实验中的一些固定的参数和其对应值，一个outcome数据表格，内容包括该文献摘要中提及的本文献的outcome，其对应的outcome measure以及对应的值。outcome变为event，cv-bin-percent，iv-cont-mean，cv-cont-mean，iv-cont-median，cv-cont-median，iv-cont-sd，cv-cont-sd作为其属性。PICO的实体之间没有对应关系。

2024-06-24 01:51:40 894

原创 ChatGLM 微调踩坑记录

转化完成后，得到train.json和test.json文件，其中由于是微调任务，我们可以直接将train的一部分用来test，减小工作量。导入PICO数据集到服务器，由于PICO是.ann类型的标注文件，我们需要把PICO文件转化成json格式的文件，并作为输入文件。官方采用的数据集是AdvertiseGen数据集，我们下载AdvertiseGen后，将其放在自建的data文件夹下。依次按照步骤，采用处理后的json文件进行训练和推理，注意更改命令中模型和数据集所在的真实路径。

2024-06-24 01:12:36 811

原创 autodl部署chatglm3-6b踩坑记录

注意requirements.txt里面标明了各个依赖需要的版本号范围，如果后面出现module类的错误，可以根据里面的版本号来重新安装对应的版本。这里踩坑：如果按照官网的教程用git去clone到auto-tmp的话，99%可能会超时，因为autodl服务器本身没法科学上网。修改/ChatGLM3/basic_demo/web_demo_gradio.py中的模型路径，将路径改为第三步中的本地模型路径。设置gradio的参数，server_port=6006，然后点击控制台面的自定义服务，就可以了。

2024-05-31 12:08:30 1068 2

原创 autodl服务器使用踩坑记录

autodl服务器踩坑寄录。

2024-05-31 10:43:53 1737

原创 Brat 踩坑经验

环境：VMware ubuntu虚拟机前几天在用brat标注数据集，总结一下自己遇到的坑：参考博客部署brat并使用。

2024-05-31 10:16:21 820

2301_78005925的博客