
跟无神学AI
文章平均质量分 64
此专栏收录AI相关内容,喜欢的朋友们点点关注哦!
竹杖芒鞋序行
专攻AI相关内容,目前聚焦于大模型相关技术。
黑暗学渣硕一枚。
欢迎关注博主一起学习AI领域的相关知识,不定期会进行论文解读和算法题整理以及算法的核心面经总结。
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
展开
-
有sudo权限下/无sudo权限下:切换gcc、g++版本
之后需要在临时设置环境变量,或者加入到.bashrc中再source一下。原创 2025-06-02 20:38:26 · 176 阅读 · 0 评论 -
论文解读之DAPO: An Open-Source LLM Reinforcement Learning System at Scale
DAPO在公开的数学数据集上做对于GRPO算法加入了一些改进,以很少的训练步数达到了R1蒸馏的qwen32B的性能:对GRPO加入以下改进,以解决GRPO实际中的熵崩溃、奖励噪声和训练不稳定性:1.将GRPO中的裁剪上限提高,鼓励模型探索(当上线过低时,模型出现较大的采样比时不会梯度反传)2.动态采样3.token级别的策略梯度损失4.过长奖励惩罚用verl框架进行了该训练方法的实现。原创 2025-04-14 20:37:46 · 282 阅读 · 0 评论 -
论文解读之Deepseek V3
1.从专业模型的推理模型(R1)蒸馏数据比从短CoT中训练的V2.5效果更好2.自反馈可以提升表现3.多token预测可加快解码速度。原创 2025-03-04 10:03:53 · 725 阅读 · 0 评论 -
强化学习笔记之引论
以上对奖励的梯度上升很直觉,即根据奖励的正负,决定对当前状态采取当前行动的一个方向,奖励为正,向该行动概率增加的方向优化参数;模型参数为前提的条件概率为,初始状态的概率*根据状态和参数采取行动1的概率*根据行动、状态1转换成状态2,奖励值1的概率...强化学习过程中奖励是一个偏好模型或者基于规则的奖励,跟模型参数无关;设置基线的策略:critic,评论家,以计算优势函数,评判actor的动作好的程度,也就是PPO算法中的价值模型。同时,乘的又是整个轨迹发生的reward,即最终的奖励。原创 2025-02-19 00:24:42 · 286 阅读 · 0 评论 -
论文解读之DeepSeek R1
deepseek主打复杂推理任务,如数学、代码任务。R1以预训练过的V1-base初始化,主要发挥了RL在长思维链上的优势,R1-Zero直接RL而在前置步骤中不进行SFT,即缺少了有监督的指令微调阶段,探索了思维链解决复杂问题的能力,使得R1-Zero表现出自我验证、反思、产生长思维链的能力;同时用较大的模型的复杂推理能力来蒸馏,以提升llama和qwen的推理能力。R1在数学、代码等benchmark上表现出色,一些数据集上超过O1。原创 2025-02-17 00:04:31 · 722 阅读 · 0 评论 -
论文解读之GPT1:Improving Language Understanding by Generative Pre-Training
GPT系列的特点是自监督大规模训练后在具体任务上进行有监督微调,事实证明这种方式可以有效利用大规模的无标签语料以提升模型对于自然语言的理解力,即使其调整参数以记忆足够多知识的模型。原创 2025-02-15 12:54:56 · 562 阅读 · 0 评论 -
论文解读之T5——Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer
T5是基于Encoder-Decoder结构的Transformer的模型,对经典的Transformer做了三个带动。其核心将NLP任务看作一个序列到序列的统一框架,做大规模的预训练,主打通用。最大将模型做到11B,基本上是Encoder-Decoder模型能够承受其训练成本的最大化,后文会引用另一位博主的分析为什么这种架构很难做得更大(区别于Decoder-only)区分任务的方式在于将输入的开头加入任务的描述,比如翻译、总结:2020年年初投稿。原创 2025-02-06 11:23:58 · 424 阅读 · 0 评论 -
论文解读之QWEN
初代QWEN的几个模型的版本,以及大致训练方式。原创 2025-01-17 15:27:34 · 1269 阅读 · 0 评论 -
论文解读之Direct Preference Optimization:Your Language Model is Secretly a Reward Model
因为大语言模型基于无监督的训练方式, 控制模型的输出行为是很困难的,。需要控制模型向人类偏好的高质量的知识、合理的输出习惯、输出行为进行改善,这就涉及到偏好学习算法。此前的方法比如PPO(近端策略优化)是在人类对于模型的输出数据集进行打分后制作的偏好数据集上训练一个奖励模型,再使用这个奖励模型使用策略优化算法进行强化学习来使得模型来对齐人类的偏好。但是,以上的强化学习范式具有一些问题:过于复杂,包括:训练多个模型、在训练过程中对策略模型采样训练不稳定。原创 2025-01-14 10:50:37 · 1130 阅读 · 0 评论 -
统计模型Bradley-Terry 模型
Bradley-Terry 模型假设每个对象 i 都有一个潜在的“能力”或“偏好”参数 θi,这种能力决定了对象在成对比较中的胜率。通过这些参数,模型计算任意两个对象在比较或竞争中的胜负概率。原创 2025-01-13 14:22:43 · 677 阅读 · 0 评论 -
训练策略之Teacher Forcing
Teacher Forcing 是一种训练技术,涉及在模型生成序列的过程中,使用真实的目标输出(ground truth)而不是模型的预测输出来作为下一个时间步的输入。原创 2025-01-07 16:37:06 · 485 阅读 · 1 评论 -
论文解读之learning to summarize with human feedback
部分生成任务需要对齐人类偏好,但是根据最大化可能性(对数似然)进行微调的模型跟真正使用模型的人的喜好并不能直接匹配,即不对齐。这种不对齐的原因有:(1)最大化可能性目标对于重要和不重要的错误判别的差距不大。(2)模型会对人类的训练数据放置更大的可能性,其中包括低质量的训练数据。(3)采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善,比如束搜索,但是可能造成重复和不想要的捏造。本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。原创 2025-01-03 20:09:03 · 626 阅读 · 0 评论 -
论文解读之Generative Dense Retrieval: Memory Can Be a Burden
生成式检索根据给定的查询,自回归地检索相关的文档标识符,在小规模的文档库中表现不错,通过使用模型参数记忆文档库,生成式检索实现了查询和文档之间的深层次交互。但是,这种记忆机制存在一些问题:1.对文档的细粒度特征记忆准确性不足2.当文档库规模变大时,记忆混淆情况加重3.新文档加入时记忆力更新的耗费很大,因为当新的文档到来时,文档聚簇树需要被更新,模型也需要被再次训练来记住所有的文档。本论文中,作者提出生成式稠密检索范式,从粗到细粒度的匹配路径上,利用稠密检索和生成式检索两种方式进行优劣互补。原创 2025-01-03 17:07:35 · 1006 阅读 · 0 评论 -
论文解读之Transformer Memory as a Differentiable Search Index
信息检索系统将query映射为整型或者字符串形式的document identifiers(docid),通常分为检索和排序两步。本文介绍将信息检索融入Transformer的参数中的开篇之作——DSI,提出了一种新的序列到序列的学习系统架构范式直接将query映射为整型或者字符串形式的document identifiers(docid)原创 2025-01-02 13:23:20 · 615 阅读 · 0 评论 -
论文解读之Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(CoT)
CoT的核心在于在prompt中使得模型将较大的问题输入拆解逐步的思维链的输出方案,属于prompt中的技巧,可以提升LLM在复杂问题上的表现,并且能够增强其可解释性(指的是在输出错误时追溯哪一步解答方案出错)。原创 2024-12-20 10:54:11 · 628 阅读 · 0 评论 -
论文解读之Image2image-turbo
image2image-turbo作为一个使用CycleGAN形式进行训练的图生图Diffusion的网络,主要解决了两方面条件扩散模型的显存局限性:1.由于迭代去噪过程而很慢的推理速度2.依赖成对数据的模型微调。原创 2024-11-01 11:08:20 · 424 阅读 · 0 评论 -
论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)
本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。原创 2024-10-29 20:43:06 · 1069 阅读 · 0 评论 -
较新(24.3)加速Diffusion模型推理的方法,附带参考文献
2.将原来的扩散模型作为教师,蒸馏到更快的少步学生网络。3.一些采用一致性模型训练。4.改用GAN做生成。原创 2024-10-18 20:02:05 · 667 阅读 · 0 评论 -
无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
ControlNet是一种能够控制模型生成内容的方法,能够对文生图等模型添加限制信息(边缘、深度图、法向量图、姿势点图等),在当今生成比较火的时代很流行。这种方法使得能够直接提供空间信息控制图片以更细粒度地得到想要的生成图片,这种方法能够以一个端到端的方式来实现这个挑战。先看看其主要方法,将原先的预训练网络冻结,然后做一个可训练的复制,再使用0初始化的1*1卷积( 保证开始训练时没有额外噪声加入进来)将这个复制的网络连成一个支路。原创 2024-10-05 12:41:54 · 666 阅读 · 0 评论 -
表示学习和自编码器(autoencoder)
其学习到的表示往往比手动设计的表示表现更优,而且只需要最少的人工干预,就能让AI模型更好适应新的任务。编码器函数将输入数据转换为一种不同的表示,而解码器函数则将这个新的表示转换为原来输入的形式。对于许多机器学习任务来说,很难知道应该提取哪些特征,比如——想要写代码检测图片中的某一个器官,然而,这个器官会随着场景的变化有各种形态。这些因素通常不是能够被直接观察到的量,但是却是影响可观测的量。设计自编码器的目的在于:使输入数据在经过编码器和解码器之后尽可能多地保留信息,同时希望新的表示有各种好的特性。原创 2024-08-12 15:26:22 · 273 阅读 · 0 评论 -
论文解读之A General-Purpose Self-Supervised Model for Computational Pathology
目前,有很多无知者认为计算机在疾病诊断上超过了人类,他们的理解是计算机在美丽国的某个什么医师测评上得分超过了人类。这比较可笑和无知。笔者认为:病理图像的病症复杂、种类繁多,同时数据集很少并且标注极为困难。故而,能用于训练的高质量数据很少,并且模型的可解释性还不足。因此,AI在疾病诊断上的表现想要接近和超过人类专家还很遥远。故而目前火热的名词只是辅助诊断,并不是AI诊断。本文的主要研究内容是一种用于解决计算病理学方向问题的自监督模型基础模型——UNI。原创 2024-05-29 11:57:03 · 1025 阅读 · 0 评论 -
Pytorch中的torch.save()文件保存格式探索以及mmdetection加载预训练模型参数对不齐和收到意外参数报错解决方案
先说原因:预训练模型在coco上预训练,而coco本身类别是80,所以它的主干网络送到其他的三个头(分类头、mask回归头、bbox头的参数种类对不上),我这个是个1个类别,加上背景。然后把继承的配置文件的训练策略改成一样的然后就可以了,有大佬对训练了解的深一些的可以在评论区讲解一下这个框架中的学习率sheduler策略有什么差别:在1x、2x、3x直接,我还在配置文件中看到一个20e.解决方案:把load_from中的权重下载下来,resize然后重新保存,即可。这里保存的是各个层的参数。原创 2024-05-27 16:57:33 · 666 阅读 · 0 评论 -
跟无神学AI之Unet解读——原创
医学图像分割任务往往数据集很少,所以考虑对模型架构进行变化使得模型能够适应这种少数据量的任务是很关键的。U-Net是一个很经典的医学图像分割模型,其网络结构的信息流呈现一个U状,所以得名。可以在单个GPU上推理512 * 512大小的医学图像分割(实例和语义)。笔者最近入坑医学图像处理领域,随阅读之并做一个理解性的学习资料的总结。原创 2024-05-16 18:04:11 · 1089 阅读 · 1 评论 -
Ilya Sutskever opemnAI前联合创始人和首席科学家AGI阅读清单
立志实现 AGI 的 Ilya Sutskever 曾向另一位 AGI 孤勇者 John Carmack 推荐了一份精选的阅读清单,内含尖端的研究论文及资料,包括神经网络架构与理论、深度学习应用、机器学习模型优化与正则化、机器学习系统与算法、人工智能理论与哲学、计算复杂性与算法随机性等干货知识。该论文介绍了关系循环神经网络(Relational-RNN)是一种用于无监督关系学习的深度学习框架,利用好奇心驱动的方法来探索和学习数据中的潜在关系。原创 2024-05-16 14:58:58 · 964 阅读 · 0 评论 -
跟无神学AI之Tensorflow笔记搭建网络八股
虽然Pytorch在论文中使用较多,但是像Alphafold在蛋白质结构预测的模型,仍然是用Tensorflow写成,遂近期在学其中的语法。Dense()为全连接层,即其中的D1块是一个3层的全连接网络,创建类在Tensorflow中的风格一样。5.在fit中进行训练过程,告知训练过程:测试集/训练集的输入特征、标签,batch、迭代次数。后者是创建类的模型,一般后者肯定更常用,复杂的模型不能一定的不可能全是前向神经网络。类方法中的Model指的是继承Tensorflow中的model类。原创 2024-03-07 19:19:34 · 522 阅读 · 0 评论 -
跟无神学AI之强化学习中的马尔可夫决策过程(Markov Decision Process, MDP)
在表中建模要素的基础上,MDP按如下方式进行组织:智能体对初始环境进行感知,按策略实施动作,环境受动作影响进入新的状态,并反馈给智能体一个奖励。随后智能体基于采取新的策略,与环境持续交互。MDP的图模型包含状态节点和动作节点,状态到动作的边由策略定义,动作到状态的边由环境动力项(参见求解部分)定义。的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。原创 2024-02-22 11:38:59 · 558 阅读 · 0 评论 -
跟无神学AI之一文读尽Sora
之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。原创 2024-02-19 19:34:57 · 1194 阅读 · 1 评论 -
Datawhale组队学习 Task10 环境影响
环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同(森林种植活动产生单一种植)更高效的模型架构、训练程序、硬件(但要注意反弹效应)在论文报告排放量。原创 2024-01-30 10:08:32 · 877 阅读 · 0 评论 -
跟无神学AI之Prompt
通过精心设计的Prompt,可以指导模型生成符合预期的回答、文本续写、翻译等。Prompt翻译为中文为提示词,在大模型的特定领域指的是大模型使用者给大模型提交的一种有一定格式的交互命令,让我们看看科大讯飞的大模型给出的答案——综上所述,Prompt是人工智能领域中一个重要的概念,它通过为模型提供具体的输入来指导其生成过程,从而在各种应用场景中实现对模型行为的精细控制。可以看出这些材料是有原作的痕迹,该模型有融合原作的成分,即使用原版星际宝贝的元素进行过训练。在大模型时代会写prompt变得很重要。原创 2024-01-25 20:46:20 · 2427 阅读 · 0 评论 -
跟无神学AI之可解释性AI
可解释性AI(XAI)旨在提高人工智能系统的透明度和可理解性,使人们更好地理解AI的决策过程和原理。XAI的研究和应用涵盖了从算法改进、可视化技术到应用场景等多个方面,为解决复杂问题提供了新的思路和方法。以生物的蛋白质预测为例,已知蛋白序列,通过大模型能够预测其空间结构,但大模型也为一个黑箱模型,虽然有一些可信度指标可以作为大模型的输出,但总归是缺乏可解释性的。因此,AI在可解释的领域上还有很长的路要走,就跟人类需要讲求科学原理一样,模型也需要有其从输入到输出映射的可解释的路径。原创 2024-01-25 21:34:25 · 380 阅读 · 0 评论 -
大模型实战营Day4 XTuner 大模型单卡低成本微调实战
同第三节的建立数据库中所提及到的,如果通用大模型在专用领域表现能力不强,如何改进——第三者在显存和GPU之间进行了一个整合,如果GPU满会到显存里面跑,速度会慢一些。LoRA的原理是在线性层平行增加一个两个小层的分支,因而能够减少训练的耗费。构建角色和对话模板,这项工作由Xtuner做过了,可以借此一键完成。欢迎关注无神,一起学大模型和AI方面的前沿知识!建立知识库或者微调,本节课进行的则是微调。其能支持的模型的硬件资源比较广泛。原创 2024-01-13 20:28:47 · 602 阅读 · 0 评论 -
大模型训练营Day3 基于 InternLM 和 LangChain 搭建你的知识库 作业
基于医疗领域搭建了一个医疗问答系统。PubMed 是一个免费搜索引擎,主要提供生命科学和生物医学主题的内容。本篇记录大模型训练营第三次的作业,属实是拖延症本症患者。原创 2024-01-14 11:20:20 · 476 阅读 · 0 评论 -
跟着无神学Pytorch Day3 自动梯度下降
parametersgradients正常的神经网络的训练分为前向传播和反向的梯度下降,即分别为输入数据根据神经网络的处理后产生一个输出结果,根据输出结果去调整神经网络的权重的两个过程。原创 2023-08-31 23:24:14 · 126 阅读 · 0 评论 -
跟着无神学Pytorch系列Day1
PyTorch算是相当简洁优雅且高效快速的框架设计追求最少的封装,尽量避免重复造轮子算是所有的框架中面向对象设计的最优雅的一个,设计最符合人们的思维,它让用户尽可能地专注于实现自己的想法大佬支持,与google的Tensorflow类似,FAIR的支持足以确保PyTorch获得持续的开发更新不错的的文档(相比FB的其他项目,PyTorch的文档简直算是完善了,参考Thrift),PyTorch作者亲自维护的论坛 供用户交流和求教问题入门简单。原创 2023-08-31 17:25:33 · 80 阅读 · 0 评论 -
跟着无神学Pytorch Day4 自动梯度下降成员的具体原理和成员设置的使用方式以及规则
梯度下降算法在Pytorch中使用DAG这种数据结构实现,是一种有向无环图,学过DS的可知其为一种体现多个元素之间多对多关系的数据结构。after eachDAG在Pytorch中是动态的,允许我们在模型中控制其状态,比如在每个轮次中改变大小、形状和操作。原创 2023-09-01 16:19:29 · 98 阅读 · 1 评论 -
跟着无神学Pytorch系列Day2
Pytorch是科学论文中火热的深度学习框架之一,想从事深度学习方向,有学术意愿的小伙伴们不要迟疑,关注无神一起学主流框架Pytorch。原创 2023-08-31 17:54:31 · 73 阅读 · 0 评论 -
Datawhale 组队学习Task8大模型的有害性(上/下)
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着需要将这些伤害视为文本的属性,从更广泛的社会语境中考虑。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。在有毒性和假信息的背景下,语言模型可以有两种用途:一是它们可以被用来生成有毒的内容,恶意行为者可以利用它们来扩大自己的信息传播;原创 2024-01-28 16:09:58 · 1172 阅读 · 0 评论 -
Datawhale 组队学习之大模型理论基础 Task7 分布式训练
近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力。原创 2024-01-26 21:38:03 · 531 阅读 · 0 评论 -
Datawhale 大模型基础 Task6 模型之Adaptation篇 笔记
顾名思义,即改变模型少量的参数,给其加上少量的头或者人工给予正确的提示等方法来试图减少训练资源达到提升模型在下游具体任务上性能的目的,其表达能力相当复杂,是以主干模型为基础的。适应主要分为:预训练模型(主干部分的训练,最消耗算力);定义损失函数来作为适配的标准;轻量微调和微调的思路大题相似,分为轻量级微调的变体、提示词微调、前缀微调、适配器微调。适应的方法主要有:探测、微调(可以提升零样本性能、改善泛化能力、获取新任务的能力)。显然,建立知识库也是另一种能够提升模型在下游任务上的性能的另一种方法。原创 2024-01-24 21:32:20 · 412 阅读 · 0 评论 -
大模型实战营Day5笔记
大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的 k/v。主要包括四个部分:1. 持续批处理;2. 有状态的推理;4. 高性能 cuda kernel。量化可以大大降低显存,同时提升推理速度。LLM 是典型的访存密集型任务。4. Cuda Kernel (算子融合可以有效减少访存次数)核心功能——推理引擎 TurboMind。原创 2024-01-22 23:58:12 · 444 阅读 · 0 评论