文献阅读:Mistral 7B

文章介绍了微软Mistral团队的新型7亿参数模型Mistral7B,通过模型优化实现超越Llama213B的性能。研究了SWA、RollingBufferCache和Pre-fillandChunking等技术,并对其在多个任务和安全性方面的表现进行了实验。
利用AI从PubMed文献构建更完善医学知识图谱可从以下方面着手: - **借助前沿技术**:利用深度学习、文本挖掘等前沿技术处理PubMed文献,IDEA AI平台技术研究中心的BIOS医学知识图谱研发团队即希望利用这些技术与国内外专家一起构建高质量的超大规模医学知识图谱,助力多领域应用[^1]。 - **利用大语言模型提升信息抽取能力**:将非结构化的PubMed摘要转化为结构化数据是构建知识图谱的关键,但此前关系识别精度难以媲美人工注释。近年来大语言模型的出现推动了信息抽取能力的跃升,研究人员基于具有人类专家水平的信息抽取流程,处理全部PubMed摘要,构建出大规模生物医学知识图谱iKraph,进一步整合公共数据库和公开组学数据后,使其成为覆盖全面、关系信息远超现有数据库的生物医学知识图谱[^2]。 - **优化模型选择与训练**:在构建知识图谱时,不同的模型效果有差异。如AI4S Cup - LLM挑战赛中,A榜测试结果显示gemma - 7b的效果比Mistralllama好,可根据实际情况选择合适模型,并通过合理的训练参数来提升构建效果,示例代码如下: ```python MODEL="/mnt2/pretrained_model/LLM/gemma-7b" CUDA_VISIBLE_DEVICES=0 python3 train_bash.py \ --stage sft \ --model_name_or_path $MODEL \ --do_train True \ --overwrite_cache True \ --overwrite_output_dir True \ --finetuning_type lora \ --template gemma \ --dataset_dir data \ --dataset ai4s \ --cutoff_len 1536 \ --learning_rate 5e-05 \ --num_train_epochs 5.0 \ --max_samples 2000 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine \ --max_grad_norm 10.0 \ --logging_steps 50 \ --save_steps 100 \ --warmup_steps 0 \ --flash_attn False \ --lora_rank 8 \ --lora_dropout 0.1 \ --lora_target q_proj,v_proj \ --output_dir output \ --fp16 True \ --val_size 0.1 \ --evaluation_strategy steps \ --eval_steps 100 \ --load_best_model_at_end True \ --report_to tensorboard ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值