
大模型
文章平均质量分 75
WhyteHighmore
这个作者很懒,什么都没留下…
展开
-
Deepseek强化微调的关键超参数介绍
本内容主要介绍Deepseek的GRPO强化微调的关键超参数原创 2025-03-04 11:20:52 · 564 阅读 · 0 评论 -
大模型微调知识分享 | 微调Deepseek-R1-1.5B代码案例
大模型微调分享JBPMG&ITCenter(该内容已经过敏感词和机密词过滤,欢迎大家在保密基础上进行基础技术讨论)原创 2025-02-17 11:45:49 · 1619 阅读 · 0 评论 -
大模型微调评估指标
大模型微调结果常用指标原创 2024-12-23 20:26:28 · 814 阅读 · 0 评论 -
LLaMA-Factory框架源码介绍 | 大模型监督微调
我带大家一起阅读一下LLaMA-Factory的源码,特别是大模型监督微调方面的源码,共同学习该框架提供的参数配置文件,方便我们从源码角度上对框架进行参数了解和调整,并致力于在此基础上添加自己的超参数。原创 2024-12-16 19:00:10 · 999 阅读 · 0 评论 -
面向LLaMA-Factory的大模型网格搜索微调工具LLaMA-Factory-Grid-Funetuning-Tool
为解决LLaMA-Factory微调参数时需要多次运行不同参数YAML文件的命令,我们提供了一个面向LLaMA-Factory的大模型网格搜索微调工具,命名为LLaMA-Factory-Grid-Funetuning-Tool。原创 2024-12-16 09:49:15 · 285 阅读 · 0 评论 -
AgentScope简述与源码解析 & 两个Agent调用Qwen模型的代码实例
1. 章节介绍:为学习该内容时每章节大概内容和重点记录2. 认识AgentBase:解析AgentBase源码3. 案例一:模拟单agent的cmd对话4. 案例二:模拟多代理的问题回答原创 2024-12-13 17:52:44 · 1070 阅读 · 1 评论 -
大模型vllm总结与代码理解
在生成新 token 时,其需要新的"问题"(Query)来查询所有历史"信息"(Key)并获取相关的"内容"(Value)。最终的表示是多个信息源的加权组合。将需要用到的KV Cache拆分成多个Block进行存储,每个Block内有多个KV,不管Batch内每个请求的输入输出序列多长,都可以按需申请Block存储,不过申请太多多余的空间。通过LLMEngine产生对象llm_engine以执行llm中的方法,执行vllm/engine/llm_engine.py中的step()方法逐步处理请求。原创 2024-12-12 17:14:22 · 632 阅读 · 0 评论 -
Coevolving with the Other You: Fine-Tuning LLM...大模型强化微调顶会论文总结
Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning大模型强化微调顶会论文总结原创 2024-12-10 15:09:11 · 501 阅读 · 0 评论 -
REFT: Reasoning with REinforced Fine-Tuning大模型强化微调顶会论文阅读总结&代码分析
为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调(ReFT),以提高学习法学硕士推理的泛化性,并以数学问题解决为例。ReFT首先用SFT预热模型,然后使用在线强化学习,特别是本文中的PPO算法,进一步微调模型,其中自动对给定问题的。SFT在 CoT的数据中微调,最终得到的模型,大概率是overfit 我们的训练数据的,也就是说会更偏向于我们的CoT结果。请注意,ReFT通过学习与SFT相同的训练问题来获得改进,而不依赖于额外的或增强的训练问题。2.整个过程使用PPO的方法进行训练。原创 2024-12-10 11:38:14 · 1505 阅读 · 0 评论 -
最新大模型强化微调论文总结 | openai公布最新chatgpt专用模型微调成果
宣布强化微调 (RFT) 预览版,允许使用强化学习对自定义数据集上的 o1 模型进行微调(明年公开发布)RFT 的应用包括为法律、金融、医疗保健和工程等领域创建专家模型(例如,与汤森路透合作寻找法律助理)对于特定任务,o1 Mini + RFT 表现优于完整的 o1 模型,模型更小、更快、更便宜。OpenAI 仅支持强化微调的 Alpha 测试申请,并且名额有限,「非常适合正在与专家团队一起处理非常复杂任务的组织」,个人用户至少得等到明年了。原创 2024-12-09 11:30:03 · 1511 阅读 · 0 评论 -
cuda运行出现FileNotFoundError: [Errno 2]No such file or directory:‘ /usr/local/cuda/bin/nvcc‘问题
当运行用到cuda的github仓库时出现该问题。原创 2024-12-05 11:06:41 · 998 阅读 · 0 评论 -
llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llamafactory‘问题
添加环境变量,这个就是将当面conda环境优先级最高,但是一次性的,也就是每次重新进入环境后都要执行这个指令。别的方法应该就是删除系统里的torchrun 或去永久性修改顺序,但是我没具体的去试一下。时,只能使用系统默认的 Python 环境,导致找不到 PyTorch 和其他依赖项,torchrun 已经在全局用户目录中安装过,虽然我在conda环境下安装pytorch,但是在多卡使用。命令时还是会调用全局里的torchrn ,这个是由于 eho $PATH 中系统变量在conda环境变量的前面。原创 2024-10-24 17:13:49 · 1463 阅读 · 0 评论 -
llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误
问题分析:nohup后台不灵光,如果非正常exit终端的话,会将Signal信号送给进程,最终导致全部中止。我是用的llamafactory微调,我的大模型微调之前使用的单卡,切换到双卡并行训练后,首先出现报错。这个问题解决后命令启动后正常运行,但一个小时内总是会出现,中断错误。是退出终端不马上关,使用exit退出;这样就算断开连接,命令也会继续运行。本人尝试第一种方法,问题解决。解决方案查看我的博客。原创 2024-10-31 16:23:42 · 559 阅读 · 1 评论 -
大模型微调经验关键参数总结
batch_size、accumulation_steps、warmup_ratio、learning_rate与epoch对大模型的性能影响及参数间关系原创 2024-10-21 17:43:43 · 1512 阅读 · 0 评论 -
大模型四大训练方法对比(RAG、prompt、fine-tuning与agent)
RAG适合需要外部知识辅助的问答系统,prompt适合自然语言生成任务,微调适合各种特定的NLP任务,而agent则适合需要连续决策的问题。生成:将这些信息片段与输入提示一起作为上下文,生成最终的回答或文本。生成输出:将提示输入到预训练模型中,模型根据提示生成剩余的输出。交互:agent在环境中执行动作,并根据环境的反馈调整其策略。微调:在特定任务的标注数据上继续训练,通常使用较小的学习率。检索:根据输入的提示(prompt),模型在大型。设计提示:创建包含任务指令和部分输入数据的提示。原创 2024-10-12 19:59:45 · 718 阅读 · 0 评论 -
腾讯2024人工智能专场前沿知识总结
和。这两个专场分别从云存储和AI应用的角度,展示了腾讯云在构建智能基础设施和推动AI应用落地方面的最新进展。原创 2024-10-12 20:02:46 · 941 阅读 · 0 评论