LLM-4-Langchain-Chatchat

愚昧之山绝望之谷开悟之坡

已于 2023-08-30 15:48:09 修改

阅读量568

点赞数

分类专栏： AIGC 人工智能笔记文章标签： langchain

于 2023-08-23 10:02:32 首次发布

本文链接：https://blog.youkuaiyun.com/qq_15821487/article/details/132298882

版权

博客讨论了在FP16精度下训练ChatGLM，指出现存的预训练模型微调效果不理想。还提到了web_demo.py在Gradio上不支持多用户并发，以及解释了ChatGLM2-6B与ChatGLM2-6B (base)的区别。此外，介绍了项目架构，包括FastChat、langchain框架以及服务间的交互，并解决了libGL.so.1缺失的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FP16精度训练

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=2

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
    --do_train \
    --train_file datas/service_worksheet/data_8_14_normal_new/train.json \
    --validation_file datas/service_worksheet/data_8_14_normal_new/dev.json \
    --preprocessing_num_workers 10 \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path /usr/local/serving/models/chatglm/chatglm2-6b \
    --output_dir datas/service_worksheet/data_8_14_normal_new/worksheet-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR-fp16 \
    --overwrite_output_dir \
    --max_source_length 1024 \
    --max_target_length 1024 \
    --per_device_train_batch_size 12 \
    --per_device_eval_batch_size 12 \
    --gradient_accumulation_steps 1 \
    --predict_with_generate \
    --logging_steps 10 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN \
    --num_train_epochs 300 \
    --evaluation_strategy epoch \
    --save_strategy epoch \
    --fp16  \
    --fp16_full_eval

直接json字符训练

应该是需要转义，也就是这样的格式：{
   "labels": "请按照规定格式介绍苏州。", "predict": "["<

最低0.47元/天解锁文章