1500深度学习笔记
文章平均质量分 89
Scabbards_
这儿Scabbards,叫我1500或者00,方向主要是多模态和LLM Agent,欢迎一起学习和交流喵
github:Scabbards1500
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Segment Anything: SAM & SAM2
梳理了一下经典的 Segment Anything SAM 和它用于分割视频的续作SAM2 的模块。原创 2025-11-02 23:40:19 · 918 阅读 · 0 评论 -
KGGEN: 用语言模型从纯文本中提取知识图
人工生成的知识图谱数量有限,而自动抽取的知识图谱往往质量堪忧。本文提出了一种解决数据稀缺问题的新方法——一个文本到知识图谱(text-to-KG)生成器 KGGen。该方法利用语言模型从纯文本中生成高质量的知识图谱。与其他知识图谱抽取器不同,KGGen 会对相关实体进行聚类,以减少生成图谱中的稀疏性。原创 2025-10-31 09:51:20 · 796 阅读 · 0 评论 -
浅尝知识图谱graph rag
浅尝一下知识图谱和graph rag原创 2025-10-30 17:09:26 · 696 阅读 · 0 评论 -
Symbolic Representation 用于 任意到任意生成任务
我们提出了一种符号化生成任务描述语言,并结合了一个推理引擎(inference engine),提供了一种全新且高效的方式,用于表示和执行多模态任务,且无需针对特定任务进行训练。通过利用预训练的大语言模型(LLM)来推理符号化任务描述,我们的方法成功地合成了多种多样的多模态生成任务,充分展示了其灵活性以及在统一不同类型生成式 AI 能力方面的潜力。原创 2025-10-30 14:10:02 · 815 阅读 · 0 评论 -
SR-Scientist: 利用 ai agent 进行科学公式的发现
在本文中,我们介绍了 SR-Scientist 框架,该框架将大型语言模型从被动的方程提出者转变为用于符号回归的自主科学家。通过分析数据、评估和优化方程,该智能体通过主动与环境交互生成并优化假设。我们的实验表明,SR-Scientist 在精度、泛化能力、对噪声的鲁棒性以及符号准确性方面显著优于现有方法。此外,我们开发了一个完整的强化学习管道,使智能体能够自我进化并增强其发现能力。原创 2025-10-28 21:27:44 · 1067 阅读 · 0 评论 -
Agent Laboratory: 利用 LLM Agent 作为研究助手
一个自动生成论文的agent, 该框架以人类提供的研究想法为起点,依次经历文献综述、实验实施与报告撰写三个阶段,最终产出完整的科研成果,包括代码仓库与研究报告。是启发性工作,效果难以达到实际学术需求水准,所以主要分析和思考了一下Method 部分。原创 2025-10-26 23:48:41 · 802 阅读 · 0 评论 -
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework
本文提出Aristotle,一个逻辑完备的LLM推理框架,通过结构化整合符号逻辑提升效能与效率。传统方法(如Chain-of-Thought)在逻辑任务中存在子任务断裂、搜索冗余和矛盾未解等问题。Aristotle创新性地引入三个模块:LogicalDecomposer(基于逻辑结构分解问题)、LogicalSearchRouter(反证法搜索矛盾)和LogicalResolver(逐步消解冲突),首次实现符号逻辑在推理全流程的深度融合。原创 2025-08-08 23:54:47 · 1080 阅读 · 0 评论 -
Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Modelsfor Hateful Meme Detection
通过融合进步的文化理念,仇恨表情包(meme)不断演变,新的表情包不断出现,使得依赖广泛培训的现有方法变得过时或无效。在这项工作中,我们提出了Evolver,通过整合模因的进化属性和上下文信息,通过进化链(CoE)提示融合了大型多模态模型(Large Multimodal Models, LLM)。原创 2025-06-30 20:43:48 · 1099 阅读 · 0 评论 -
Faithful Logical Reasoning via Symbolic Chain-of-Thought
本研究提出符号思维链(Symbolic Chain-of-Thought, SymbCoT)框架,创新地将符号表达和逻辑规则与符号思维链提示相结合,以提高法学硕士的逻辑推理能力。具体来说,SymbCoT在主干LLM的基础上,将自然语言上下文翻译成符号格式,然后推导出一个循序渐进的方案,用符号逻辑规则来解决逻辑推理问题,然后由验证者来检查翻译和推理链。在FOL和CO符号表达的5个标准基准上的实验结果表明,SymbCoT在逻辑推理上显著增强了vanilla CoT。原创 2025-06-15 21:41:35 · 1155 阅读 · 0 评论 -
An Image isWorth 32 Tokensfor Reconstruction and Generation 一个图像值32个Token用于重建和生成
生成模型的最新进展突出了图像标记化(image tokenization )在高效合成高分辨率图像中的关键作用。与直接处理像素相比,标记化将图像转换为潜在表示(latent representations),减少了计算需求,提高了生成过程的有效性和效率。先前的方法,如VQGAN,通常使用具有固定下采样因子的二维潜在网格(2D latent grids)。然而,这些二维标记化在管理图像中存在的固有冗余(inherent redundancies)方面面临挑战,其中相邻区域经常显示相似性。原创 2025-04-14 19:37:42 · 1396 阅读 · 0 评论 -
Large Language Model(LLM)的训练和微调
SFT,RLHF,PPO,DPO 微调等梳理原创 2025-04-12 14:25:43 · 1415 阅读 · 0 评论 -
FDA: 用于语义分割的傅里叶域自适应
我们描述了一种简单的无监督域自适应方法,即通过交换源和目标分布的低频频谱来减小源和目标分布之间的差异。我们在语义分割中说明了该方法,其中密集注释的图像在一个领域(例如,合成数据)中很丰富,但在另一个领域(例如,真实图像)中很难获得。目前最先进的方法是复杂的,一些需要对抗性优化,以使神经网络的主干对离散域选择变量保持不变。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其逆变换。尽管它很简单,但当集成到相对标准的语义分割模型中时,它在当前基准测试中实现了最先进的性能。原创 2024-03-18 16:13:38 · 2394 阅读 · 0 评论 -
生成模型速通(Diffusion,VAE,GAN)
最近有同学找我讨论生成觉得有点意思就学了学原创 2025-03-23 22:58:35 · 1225 阅读 · 0 评论 -
人工智能的未来:探索大型概念模型的潜力
Meta引入了大型概念模型(Large Concept Models, lcm),代表了传统的基于令牌的框架的重大转变。lcm使用概念作为理解的基本单位,支持更复杂的语义推理和上下文感知决策。鉴于这一新兴技术的学术研究有限,我们的研究旨在通过收集、分析和综合现有的灰色文献来弥补知识差距,以提供对lcm的全面了解。具体来说,我们(i)识别和描述LCM与llm的区别特征,(ii)探索LCM在多个领域的潜在应用,(iii)提出未来的研究方向和实际策略,以推进LCM的发展和采用。原创 2025-03-21 15:04:44 · 959 阅读 · 0 评论 -
理解知识如何在大型Vision-Language Models 中演化
这项工作研究了多模态知识如何在lvlm中发展。使用early exit 和降维技术,我们设计了几种策略来跟踪模型中的知识,并在三个层次上探索这个主题:单个令牌概率、令牌概率分布和特征编码。基于两个关键节点,即关键层和突变层,我们首次深入了解了lvlm中的知识进化过程。此外,根据不同进化阶段的特点,我们还在模型压缩和幻觉消除等问题上探索了新的视角。原创 2025-03-10 20:47:11 · 1193 阅读 · 1 评论 -
一种基于滑动层合并的高效深度修剪大模型的方法
我们提出了一种滑动层合并方法 sliding layer merging method,该方法根据预定义的相似度阈值从上到下动态地选择和融合连续层 consecutive layers,从而在保持模型性能的同时简化了模型结构。原创 2025-03-09 16:57:24 · 957 阅读 · 0 评论 -
模型压缩梳理
最近在复现模型压缩的工作,看了一下视频稍微整理一下知识点。大概看了看深度学习模型的推理优化方法,包括模型小型化、低比特量化、模型剪枝及知识蒸馏。原创 2025-03-08 15:20:11 · 1087 阅读 · 0 评论 -
EGE-UNet:一种有效的分组增强UNet皮肤病灶分割方法
EGE-UNet以轻量级的方式集成了一个Group multi-axis Hadamard Product Attention module(GHPA)和一个Group Aggregation Bridge module(GAB)。GHPA对输入特征进行分组,并在不同轴上执行Hadamard Product Attention mechanism(HPA),从不同角度提取病理信息。原创 2025-03-04 15:35:55 · 1214 阅读 · 0 评论 -
Canny 边缘检测
canny边缘检测一点小笔记原创 2025-01-27 13:38:33 · 1386 阅读 · 0 评论 -
基于实例感知交互的联合的显微电镜图像去噪与分割
我们的框架包括三个组成部分:去噪网络、分割网络和促进特征级交互的融合网络。首先,去噪网络减轻了噪声的退化。随后,分割网络学习实例级亲和先验,编码重要的空间结构信息。最后,在融合网络中,我们提出了一种新的实例感知嵌入模块(IEM),利用分割特征中的重要空间结构信息进行去噪。IEM在统一的框架内实现了两个任务之间的交互,并通过联合训练机制促进了从去噪到分割的隐式反馈。原创 2025-01-22 21:22:47 · 942 阅读 · 0 评论 -
用于牙科的多任务视频增强
视频辅助牙科干预中的视频增强减轻了低光、噪音、模糊和相机握手等降低视觉舒适度的问题。为此,我们引入了一种新的深度网络,用于多任务视频增强,使牙科场景的宏观可视化。特别是,该网络以多尺度方式联合利用视频恢复和时间对齐来有效增强视频。原创 2025-01-21 15:07:58 · 1427 阅读 · 0 评论 -
GAN 用于图像增强
GAN用于图像增强的原理和一些实践原创 2025-01-18 18:21:21 · 1581 阅读 · 0 评论 -
分布移位下用于泛化的泛化的自监督测试时训练
在本文中,我们提出了测试时训练(test - time Training),这是一种在训练数据和测试数据来自不同分布时提高预测模型性能的通用方法。我们将单个未标记的测试样本转化为自监督学习问题,在进行预测之前更新模型参数。这也自然地扩展到在online stream中的数据。我们的简单方法可以改善不同的图像分类基准,旨在评估对分布变化的鲁棒性。主要是复现实验理解用写的略有点草率原创 2024-04-19 15:33:41 · 1494 阅读 · 0 评论 -
语义分割图像预处理代码小汇总
我常用的一些语义分割深度学习预处理代码,包括给把coco格式的数据转换成mask, 对文件名的各种修改,二值标签处理,数据集划分,修改图片大小等等原创 2024-04-14 16:59:58 · 513 阅读 · 0 评论 -
PairAug:增强图像-文本对对放射学有什么用?
总算迁移学习的工作差不多弄完了回来继续搞多模态了!在本文中,我们提出了一种名为PairAug的方法来解决在放射学中获取配对图像-文本数据集的挑战。paiaug包含两个分支:InterAug和IntraAug。InterAug生成与可信报告配对的合成放射学图像,创建新的患者病例,而IntraAug专注于为每个人生成不同的配对数据。我们采用数据修剪技术来确保高质量的数据。各种任务的实验结果表明,PairAug优于仅关注图像或文本扩展的基线方法。原创 2024-04-11 23:54:09 · 1246 阅读 · 0 评论 -
FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用
为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。原创 2024-03-12 15:59:52 · 2882 阅读 · 0 评论 -
DLTTA:跨域医学图像测试时间自适应的动态学习率
本文解决了具有挑战性的测试时自适应问题,旨在通过学习测试时提供的推理样本,将深度模型推广到未知数据分布。本文提出了一种测试时间适应的动态学习率策略,旨在根据估计的预测差异动态调整模型更新的步长。原创 2024-02-19 11:21:17 · 1882 阅读 · 0 评论 -
神经调节的Hebbian学习用于完全测试时自适应
我们从生物学合理性学习中获得灵感,其中神经元反应是基于局部突触变化过程进行调整的,并由竞争性侧抑制规则激活。基于这些前馈学习规则,我们设计了一个软Hebbian学习过程,为Test-Time adaption 提供了一种无监督的有效机制。我们观察到,通过加入反馈神经调节层,这种前馈Hebbian学习完全适应测试时间的性能可以显著提高。原创 2024-01-29 15:55:13 · 1452 阅读 · 0 评论 -
TENT:熵最小化的Fully Test-Time Adaption
在测试期间,模型必须自我调整以适应新的和不同的数据。在这种完全自适应测试时间的设置中,模型只有测试数据和它自己的参数。我们建议通过test entropy minimization (tent[1])来适应:我们通过其预测的熵来优化模型的置信度。我们的方法估计归一化统计量,并优化通道仿射变换,以在线更新每个批次。原创 2024-01-26 15:49:57 · 6320 阅读 · 0 评论 -
用于医学分割的实时Test-time adaption
我们提出了一个名为自适应UNet的新框架,其中每个卷积块都配备了一个自适应批处理归一化层,以根据domain代码调整特征。该域代码是使用在大型医学图像语料库上训练的预训练编码器生成的。在测试过程中,模型只接收新的测试图像,并根据测试数据生成域代码来适应源模型的特征。原创 2024-01-25 16:00:17 · 1754 阅读 · 0 评论 -
分布变化下的Test-Time adaption 综述
分布变化下的TTA综述,将TTA划分为几个不同的类别,即测试时间(无源)域自适应、测试时间批量自适应、在线测试时间自适应和测试时间先验自适应。对于每个类别,我们都提供了高级算法的综合分类,然后讨论了不同的学习场景。此外,我们还分析了TTA的相关应用,并讨论了未来研究的开放挑战和前景。着重写的OTTA,别的地方感兴趣自己读23333原创 2024-01-24 21:22:21 · 6894 阅读 · 0 评论 -
U-MixFormer:用于高效语义分割的类unet结构的混合注意力Transformer
作者提出了一种新的基于U-Net结构的Transformer解码器U-MixFormer。作者的方法通过利用编码器和解码器阶段之间的横向连接作为注意力模块的特征 Query ,除了依赖跳接的传统方式。此外,作者还创新地将来自不同编码器和解码器阶段的层次特征图混合,形成一个统一的表示形式,用于Key和Value,从而产生作者独特的_mix-attention_模块。感觉还是很不错的,未来可期!原创 2023-12-20 23:54:24 · 4423 阅读 · 7 评论 -
UNETR++:深入研究高效和准确的3D医学图像分割
在本文中,我们提出了一种名为unetr++的三维医学图像分割方法,该方法既提供了高质量的分割mask,又在参数、计算成本和推理速度方面具有效率。我们设计的核心是引入一种新的高效成对注意(efficient paired attention, EPA)块,该块使用基于空间和通道注意的一对相互依赖的分支有效地学习空间和通道方面的判别特征。原创 2023-11-24 16:06:11 · 4694 阅读 · 0 评论 -
UNETR:用于三维医学图像分割的Transformer
我们将体积(3D)医学图像分割任务重新制定为序列到序列的预测问题。我们引入了一种新的架构,称为UNEt-TRansformer(UNETR),它利用Transformer作为编码器来学习输入体积的序列表示并有效捕获全局多尺度信息,同时也遵循编码器和解码器的成功“u形”网络设计也能很好的提取到局部特征。原创 2023-11-23 22:58:39 · 2241 阅读 · 1 评论 -
基于谐波参数空间的卷积神经网络自动三维牙齿分割
牙齿三维模型的自动分割是正畸CAD系统的一个重要步骤。三维牙齿分割是一项网格实例分割任务。由于三维牙齿模型表面复杂的几何特征常常导致牙齿边界检测失败,传统的网格分割方法难以实现自动准确的分割。我们提出了一个解决这个问题的新方法。我们将三维牙齿模型同构映射到二维谐波参数空间,并将其转换成图像。这使得我们可以使用CNN学习高度鲁棒的图像分割模型来实现3D牙齿模型的自动准确分割。最后,我们将图像分割掩码映射回三维牙齿模型,并使用改进的模糊聚类和切割算法对分割结果进行细化。原创 2023-11-14 18:49:11 · 955 阅读 · 1 评论 -
LViT:语言与视觉Transformer在医学图像分割
LViT模型中,医学文本注释被纳入以弥补图像数据的质量缺陷。此外,在半监督学习中,文本信息可以引导生成质量提高的伪标签。我们还提出了一种指数伪标签迭代机制(EPI)来帮助像素级注意模块(PLAM)在半监督LViT设置下保持局部图像特征。在我们的模型中,LV (Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练。原创 2023-07-28 18:04:50 · 8383 阅读 · 14 评论 -
pytorch里常用操作(持续更新)
对不起我脑子不太记事儿每次变换都得想想想所以干脆汇总一下算了,当然也有一些不是torch包里面的但是没有关系hhh.挺多的,慢慢填吧原创 2023-10-16 21:40:08 · 657 阅读 · 0 评论 -
Transformer 中 Positional Encoding 实现
最近弄多模态中那个4维向量需要变成positional embedding导致中间代码卡了一段时间....把这一块浅浅多了解一下,因为很多多模态任务都需要这种位置编码....卡好久了!今个非得给他整明白了!原创 2023-10-15 17:25:50 · 998 阅读 · 0 评论 -
UNet及其变体在医学图像分割中的性能分析
很新的一篇Unet医学分割综述(20230922)!不过感觉严格意义上来说里面提到的方法不算很新,但是能给你理一下思路。本研究旨在探索深度学习模型在医学图像分割中的应用,特别关注UNet架构及其变体(Res-Unet, Attention Res-Unet)。我们试图评估这些模型在各种具有挑战性的医学图像分割任务中的性能,解决诸如图像归一化、调整大小、架构选择、损失函数设计和超参数调优等问题。原创 2023-10-10 15:42:12 · 1181 阅读 · 0 评论 -
MA-SAM:模态不可知的三维医学图像分割SAM自适应
这一篇sam是在3D医疗领域的新屠榜作,个人觉得还是很值得一看的。我们的目标是充分利用SAM在其原始2D骨干中的预训练权重。在本文中,我们引入了一个模态无关的SAM自适应框架,称为MA-SAM,它适用于各种体积和视频医疗数据。我们的方法基于parameter-efficient 的微调策略保留SAM的大部分预训练权值。通过在图像编码器的Transformer中注入一系列3D适配器,我们的方法使预训练的2D骨干能够从输入数据中提取三维信息。原创 2023-10-07 17:11:01 · 3583 阅读 · 1 评论
分享