- 博客(116)
- 资源 (5)
- 收藏
- 关注
原创 大模型微调知识分享 | 微调Deepseek-R1-1.5B代码案例
大模型微调分享JBPMG&ITCenter(该内容已经过敏感词和机密词过滤,欢迎大家在保密基础上进行基础技术讨论)
2025-02-17 11:45:49
1407
原创 LLaMA-Factory框架源码介绍 | 大模型监督微调
我带大家一起阅读一下LLaMA-Factory的源码,特别是大模型监督微调方面的源码,共同学习该框架提供的参数配置文件,方便我们从源码角度上对框架进行参数了解和调整,并致力于在此基础上添加自己的超参数。
2024-12-16 19:00:10
928
原创 面向LLaMA-Factory的大模型网格搜索微调工具LLaMA-Factory-Grid-Funetuning-Tool
为解决LLaMA-Factory微调参数时需要多次运行不同参数YAML文件的命令,我们提供了一个面向LLaMA-Factory的大模型网格搜索微调工具,命名为LLaMA-Factory-Grid-Funetuning-Tool。
2024-12-16 09:49:15
272
原创 AgentScope简述与源码解析 & 两个Agent调用Qwen模型的代码实例
1. 章节介绍:为学习该内容时每章节大概内容和重点记录2. 认识AgentBase:解析AgentBase源码3. 案例一:模拟单agent的cmd对话4. 案例二:模拟多代理的问题回答
2024-12-13 17:52:44
1025
2
原创 大模型vllm总结与代码理解
在生成新 token 时,其需要新的"问题"(Query)来查询所有历史"信息"(Key)并获取相关的"内容"(Value)。最终的表示是多个信息源的加权组合。将需要用到的KV Cache拆分成多个Block进行存储,每个Block内有多个KV,不管Batch内每个请求的输入输出序列多长,都可以按需申请Block存储,不过申请太多多余的空间。通过LLMEngine产生对象llm_engine以执行llm中的方法,执行vllm/engine/llm_engine.py中的step()方法逐步处理请求。
2024-12-12 17:14:22
576
原创 Coevolving with the Other You: Fine-Tuning LLM...大模型强化微调顶会论文总结
Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning大模型强化微调顶会论文总结
2024-12-10 15:09:11
481
原创 REFT: Reasoning with REinforced Fine-Tuning大模型强化微调顶会论文阅读总结&代码分析
为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调(ReFT),以提高学习法学硕士推理的泛化性,并以数学问题解决为例。ReFT首先用SFT预热模型,然后使用在线强化学习,特别是本文中的PPO算法,进一步微调模型,其中自动对给定问题的。SFT在 CoT的数据中微调,最终得到的模型,大概率是overfit 我们的训练数据的,也就是说会更偏向于我们的CoT结果。请注意,ReFT通过学习与SFT相同的训练问题来获得改进,而不依赖于额外的或增强的训练问题。2.整个过程使用PPO的方法进行训练。
2024-12-10 11:38:14
1475
3
原创 最新大模型强化微调论文总结 | openai公布最新chatgpt专用模型微调成果
宣布强化微调 (RFT) 预览版,允许使用强化学习对自定义数据集上的 o1 模型进行微调(明年公开发布)RFT 的应用包括为法律、金融、医疗保健和工程等领域创建专家模型(例如,与汤森路透合作寻找法律助理)对于特定任务,o1 Mini + RFT 表现优于完整的 o1 模型,模型更小、更快、更便宜。OpenAI 仅支持强化微调的 Alpha 测试申请,并且名额有限,「非常适合正在与专家团队一起处理非常复杂任务的组织」,个人用户至少得等到明年了。
2024-12-09 11:30:03
1443
原创 cuda运行出现FileNotFoundError: [Errno 2]No such file or directory:‘ /usr/local/cuda/bin/nvcc‘问题
当运行用到cuda的github仓库时出现该问题。
2024-12-05 11:06:41
747
原创 llamafactory大模型微调单卡转多卡出现SignalException: Process 3232810 got signal: 1错误
问题分析:nohup后台不灵光,如果非正常exit终端的话,会将Signal信号送给进程,最终导致全部中止。我是用的llamafactory微调,我的大模型微调之前使用的单卡,切换到双卡并行训练后,首先出现报错。这个问题解决后命令启动后正常运行,但一个小时内总是会出现,中断错误。是退出终端不马上关,使用exit退出;这样就算断开连接,命令也会继续运行。本人尝试第一种方法,问题解决。解决方案查看我的博客。
2024-10-31 16:23:42
382
1
原创 llamafactory单卡转多卡出现ModuleNotFoundError: No module named ‘llamafactory‘问题
添加环境变量,这个就是将当面conda环境优先级最高,但是一次性的,也就是每次重新进入环境后都要执行这个指令。别的方法应该就是删除系统里的torchrun 或去永久性修改顺序,但是我没具体的去试一下。时,只能使用系统默认的 Python 环境,导致找不到 PyTorch 和其他依赖项,torchrun 已经在全局用户目录中安装过,虽然我在conda环境下安装pytorch,但是在多卡使用。命令时还是会调用全局里的torchrn ,这个是由于 eho $PATH 中系统变量在conda环境变量的前面。
2024-10-24 17:13:49
1193
1
原创 大模型微调经验关键参数总结
batch_size、accumulation_steps、warmup_ratio、learning_rate与epoch对大模型的性能影响及参数间关系
2024-10-21 17:43:43
1320
原创 A Survey of Large Language Models大模型综述论文章节总结
这篇论文出自于中国人民大学,全面回顾了大型语言模型 (LLM) 的最新进展,重点关注其发展背景、关键发现和主流技术。
2024-10-17 17:28:38
1798
原创 毛概考试重点总结
一1怎么把握毛思的主要内容和活的灵魂新民主主义革命理论(内容)社会主义革命和社会主义建设理论革命军队建设和军事战略理论政策和策略的理论思想政治工作和文化工作理论党的建设理论除此之外国际战略和外交工作的理论实事求是(灵魂)群众路线独立自主2科学认识毛泽东思想的历史地位马克思主义中国化的第一个重大理论成果中国革命和建设的科学指南中国共产党和中国人民宝贵的精神财富二...
2024-10-14 11:29:33
551
8
原创 Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection顶会论文总结
轻量级的二分类器;局部固有维度与几种简单的调整卷积神经网络(CNN)定义了许多感知任务的最先进解决方案。然而,目前的CNN方法在很大程度上仍然容易受到输入的对抗性扰动的影响,这些扰动是专门为欺骗系统而设计的,同时人眼几乎无法察觉。近年来,人们提出了各种方法来保护cnn免受此类攻击,例如通过模型强化或添加显式防御机制。因此,在网络中包含一个小的“检测器”,并在区分真实数据和包含对抗性扰动的数据的二元分类任务上进行训练。在这项工作中,我们提出了一个简单且轻量级的检测器,它利用了最近关于网络。
2024-10-14 11:10:59
949
原创 前后端基础总结
是一个 CSS 的扩展,它在 CSS 语法的基础上,允许您使用变量 (variables), 嵌套规则 (nested rules), 混合 (mixins), 导入 (inline imports) 等功能,令 CSS 更加强大与优雅。对你的代码来说是一个包管理器, 你可以通过它使用全世界开发者的代码, 或者分享自己的代码。Yarn 做这些快捷、安全、可靠,所以你不用担心什么。是一门 CSS 预处理语言,它扩展了 CSS 语言,增加了变量、Mixin、函数等特性,使 CSS 更易维护和扩展。
2024-10-13 17:25:23
258
原创 windows与linux常用命令对比
版权声明:本文为优快云博主「南风孤梦晓辰星」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/JacaCao/article/details/100189445。序号 Windows命令 Linux命令 命令描述。10 ctl-z Ctl-D EOF(文件结尾)27 rar -e tar -xzf 解压缩。26 rar -a tar -czf 压缩。9 ctl-c Ctl-C 休息(信号)
2024-10-13 11:41:19
358
原创 SpaceX低轨卫星轨道计划总结
V 频段的星座将利用目前卫星通信很少采用的 37 吉赫~50 吉赫范围内的频谱,与前两个阶段的 Ka/Ku 频段星座共同为用户提供通信速率更快、时延更低的宽带卫星通信服务。2017 年~2018 年,“星链”星座的所有发展计 划均已得到美国联邦通信委员会的批准,获得了在美国的落地权。此外,该星座还引起了美国军方的特别关注,并于 2018 年获得美国空军战略开发规划与实验办公室价值 2870万美元的合同,用于在未来三年内测试军方使用该星座服务的可行性与方式。美国太空探索技术公司。**第二阶段:**全球组网。
2024-10-13 11:28:37
626
原创 SpectralDefense: Detecting Adversarial Attacks on CNNs in the Fourier Domain顶会论文总结
尽管卷积神经网络(cnn)在许多计算机视觉和图像分析任务中取得了成功,但它们仍然容易受到所谓的对抗性攻击:输入图像中的微小、精心设计的扰动可能导致错误的预测。一种可能的防御方法是检测对抗性的例子。在这项工作中,我们展示了如何使用分析来区分良性测试样本和对抗图像。我们提出了两种新的检测方法:我们的第一种方法使用输入图像的来检测对抗性攻击。这种简单、鲁棒的分类器可以成功地检测到常用攻击方法的对抗性扰动。第二种方法建立在第一种方法的基础上,并在网络的。有了这个扩展,与不同的攻击方法相比,我们能够提高对抗性检测率。
2024-10-13 11:22:18
503
原创 VDVAE:Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images顶会论文总结
我们首次提出了一种分层VAE,它可以快速生成样本,并且在所有自然图像基准上的对数似然性 LL(log-likelihood )能优于PixelCNN。我们首先观察到,在理论上,VAEs实际上可以代表自回归模型,如果它们存在的话,如果它们足够深的话,也可以代表更快、更好的模型。尽管如此,自回归模型在对数似然方面的历史表现优于vae。我们通过将VAE扩展到比先前探索的更大的随机深度来测试深度不足是否解释了原因,并对其进行了CIFAR-10, ImageNet和FFHQ评估。。
2024-10-13 11:19:40
553
原创 Adaptive Modeling Against Adversarial Attacks顶会论文总结
对抗性训练是用对抗性数据训练深度学习模型的过程,是深度学习模型最成功的对抗性防御方法之一。我们发现,如果在推理阶段对该模型进行微调,使其适应带有额外信息的对抗输入,则可以进一步提高对抗性训练模型对白盒攻击的鲁棒性。我们引入了一种算法,在原始输出类和“邻居”类之间使用现有的训练数据在推理阶段对模型进行“后训练”。预训练的FastFGSM CIFAR10分类器基模型对白盒投影梯度攻击(white-box projected gradient attack, PGD)的准确率从46.8%显著提高到64.5%。
2024-10-13 11:15:04
970
原创 R语言基础常用代码总结
a[1:4] # 取出第 1 到 4 项,包含第 1 和第 4 项。(1, 3, 5)] # 取出第 1, 3, 5 项。(-1, -5)] # 去掉第 1 和第 5 项。[数据框(data.frame)](向量(vector)(3, 4) #赋值。
2024-10-13 11:09:11
795
原创 考研复试流程及技巧
复试470/500大一就准备考研、考公的简历(要证明你大学四年都在拼搏、并取得成就)实习企业很重要,不要跟着学校的招聘会来,自己出去找vivo(本人)、oppo、腾讯、小米、阿里、百度的offer会让导师一般情况下肯定会录用你,复试只要写在简历上,导师一定会问雷区:不要说自己工作为了就业,导师一般会找能帮助自己研究论文的学生,并且会找一些什么都知道,有实践经验的,一般不会费时间去教一个啥都不会的小白,自己是大学生,不要停留在小学初中高中的思维上必须加一个本校的学长,它会为你传递很多复试技巧初试成
2024-10-13 11:03:22
470
2
原创 腾讯2024人工智能专场前沿知识总结
和。这两个专场分别从云存储和AI应用的角度,展示了腾讯云在构建智能基础设施和推动AI应用落地方面的最新进展。
2024-10-12 20:02:46
926
原创 大模型四大训练方法对比(RAG、prompt、fine-tuning与agent)
RAG适合需要外部知识辅助的问答系统,prompt适合自然语言生成任务,微调适合各种特定的NLP任务,而agent则适合需要连续决策的问题。生成:将这些信息片段与输入提示一起作为上下文,生成最终的回答或文本。生成输出:将提示输入到预训练模型中,模型根据提示生成剩余的输出。交互:agent在环境中执行动作,并根据环境的反馈调整其策略。微调:在特定任务的标注数据上继续训练,通常使用较小的学习率。检索:根据输入的提示(prompt),模型在大型。设计提示:创建包含任务指令和部分输入数据的提示。
2024-10-12 19:59:45
596
原创 Large Multimodal Agents: A Survey大模型综述论文概要总结
LMAs与人机交互领域的交汇代表着未来应用的一个重要方向。
2024-10-12 19:57:06
225
原创 Large Language Models: A Survey大模型综述论文章节总结
其他LLM模型:FLAN、Gopher、ERNIE 4.0、Retro、LaMDA、ChinChilla、Galactia-120B、CodeGen、BLOOM、Zephyr、Grok-0、ORCA-2、StartCoder、MPT、Mixtral-8x7B、Falcon 180B、Gemini。GPT: 仅解码器,GPT-1、GPT-2、GPT-3、InstrucGPT、ChatGPT、GPT-4、CODEX和WebGPT。LLM缺点:没有内存、回答概率性、过时的信息、训练成本大、产生幻觉。
2024-10-12 19:37:56
439
原创 大数据Apriori算法总结
Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。Apriori算法是种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
2024-10-12 19:26:31
620
原创 Diffusion模型总结
扩散概率模型最初受非平衡热力学启发,作为隐变量生成模型(latent variable generative model)而提出的。首先是前向(forward,或者译为正向)的过程,通过在多个尺度上添加噪声来逐步扰乱数据分布;然后是反向的过程,去学习如何恢复数据结构[78, 186]。从这个角度看,扩散模型可以看作是一个层次很深的(Variational Auto-Encoder),即上述的破坏和恢复过程分别对应于VAE中的编码和解码过程。
2024-10-12 19:24:59
459
原创 DCGAN与WGAN与WGAN-GP与StyleGAN的对比
Mapping 层:首先将潜变量z转换为w,再生成器中不同阶段使用w(处理不同分辨率))Synthesis 层: A用于控制生成图像的风格,B 是转换后的随机噪声。a.判别器中移除最后一个sigmoid层。c.将鉴别器的权重裁剪到1 ~ -1间。d.使用RMSProp或SGD作为优化器。b.梯度惩罚 从一个插值图像中。0.EM距离代替JS,KL散度。a.用梯度惩罚代替权重裁剪。b.计算损失时不取对数。
2024-10-12 19:23:02
289
原创 顶会总结与综述(图像篡改定位方向)
由于图像重复导致大量论文被撤稿,本研究评估了所建议数据集中最先进的复制移动检测方法,使用了一种新的指标,该指标断言源和复制区域之间的匹配检测是一致的。我们的结果和分析表明,在通用计算机视觉数据集上开发的现有算法在应用于生物医学图像时并不健壮,这表明需要更多的研究来解决生物医学图像取证的独特挑战。该方法基于一个关键观察,即混合操作产生的边界转移伪影在各种图像伪造操作中普遍存在,我们的方法利用基于CRF(条件随机场)的注意力模型,通过生成注意力图来表示图像中每个像素被伪造的概率,从而很好地表征了这一伪影。
2024-10-12 17:31:50
1646
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人