- 博客(131)
- 收藏
- 关注
原创 Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Modelsfor Hateful Meme Detection
通过融合进步的文化理念,仇恨表情包(meme)不断演变,新的表情包不断出现,使得依赖广泛培训的现有方法变得过时或无效。在这项工作中,我们提出了Evolver,通过整合模因的进化属性和上下文信息,通过进化链(CoE)提示融合了大型多模态模型(Large Multimodal Models, LLM)。
2025-06-30 20:43:48
926
原创 Faithful Logical Reasoning via Symbolic Chain-of-Thought
本研究提出符号思维链(Symbolic Chain-of-Thought, SymbCoT)框架,创新地将符号表达和逻辑规则与符号思维链提示相结合,以提高法学硕士的逻辑推理能力。具体来说,SymbCoT在主干LLM的基础上,将自然语言上下文翻译成符号格式,然后推导出一个循序渐进的方案,用符号逻辑规则来解决逻辑推理问题,然后由验证者来检查翻译和推理链。在FOL和CO符号表达的5个标准基准上的实验结果表明,SymbCoT在逻辑推理上显著增强了vanilla CoT。
2025-06-15 21:41:35
848
原创 An Image isWorth 32 Tokensfor Reconstruction and Generation 一个图像值32个Token用于重建和生成
生成模型的最新进展突出了图像标记化(image tokenization )在高效合成高分辨率图像中的关键作用。与直接处理像素相比,标记化将图像转换为潜在表示(latent representations),减少了计算需求,提高了生成过程的有效性和效率。先前的方法,如VQGAN,通常使用具有固定下采样因子的二维潜在网格(2D latent grids)。然而,这些二维标记化在管理图像中存在的固有冗余(inherent redundancies)方面面临挑战,其中相邻区域经常显示相似性。
2025-04-14 19:37:42
1055
原创 人工智能的未来:探索大型概念模型的潜力
Meta引入了大型概念模型(Large Concept Models, lcm),代表了传统的基于令牌的框架的重大转变。lcm使用概念作为理解的基本单位,支持更复杂的语义推理和上下文感知决策。鉴于这一新兴技术的学术研究有限,我们的研究旨在通过收集、分析和综合现有的灰色文献来弥补知识差距,以提供对lcm的全面了解。具体来说,我们(i)识别和描述LCM与llm的区别特征,(ii)探索LCM在多个领域的潜在应用,(iii)提出未来的研究方向和实际策略,以推进LCM的发展和采用。
2025-03-21 15:04:44
774
原创 理解知识如何在大型Vision-Language Models 中演化
这项工作研究了多模态知识如何在lvlm中发展。使用early exit 和降维技术,我们设计了几种策略来跟踪模型中的知识,并在三个层次上探索这个主题:单个令牌概率、令牌概率分布和特征编码。基于两个关键节点,即关键层和突变层,我们首次深入了解了lvlm中的知识进化过程。此外,根据不同进化阶段的特点,我们还在模型压缩和幻觉消除等问题上探索了新的视角。
2025-03-10 20:47:11
1037
2
原创 一种基于滑动层合并的高效深度修剪大模型的方法
我们提出了一种滑动层合并方法 sliding layer merging method,该方法根据预定义的相似度阈值从上到下动态地选择和融合连续层 consecutive layers,从而在保持模型性能的同时简化了模型结构。
2025-03-09 16:57:24
847
原创 模型压缩梳理
最近在复现模型压缩的工作,看了一下视频稍微整理一下知识点。大概看了看深度学习模型的推理优化方法,包括模型小型化、低比特量化、模型剪枝及知识蒸馏。
2025-03-08 15:20:11
932
原创 EGE-UNet:一种有效的分组增强UNet皮肤病灶分割方法
EGE-UNet以轻量级的方式集成了一个Group multi-axis Hadamard Product Attention module(GHPA)和一个Group Aggregation Bridge module(GAB)。GHPA对输入特征进行分组,并在不同轴上执行Hadamard Product Attention mechanism(HPA),从不同角度提取病理信息。
2025-03-04 15:35:55
1016
原创 基于实例感知交互的联合的显微电镜图像去噪与分割
我们的框架包括三个组成部分:去噪网络、分割网络和促进特征级交互的融合网络。首先,去噪网络减轻了噪声的退化。随后,分割网络学习实例级亲和先验,编码重要的空间结构信息。最后,在融合网络中,我们提出了一种新的实例感知嵌入模块(IEM),利用分割特征中的重要空间结构信息进行去噪。IEM在统一的框架内实现了两个任务之间的交互,并通过联合训练机制促进了从去噪到分割的隐式反馈。
2025-01-22 21:22:47
844
原创 用于牙科的多任务视频增强
视频辅助牙科干预中的视频增强减轻了低光、噪音、模糊和相机握手等降低视觉舒适度的问题。为此,我们引入了一种新的深度网络,用于多任务视频增强,使牙科场景的宏观可视化。特别是,该网络以多尺度方式联合利用视频恢复和时间对齐来有效增强视频。
2025-01-21 15:07:58
1336
原创 INT305 Machine Learning
siyue 今年新皇登基,大赦天下!23 ics wcl 同学此刻已是机器学习大师了,拼尽全力无法战胜,教我教我教我教我教我教我教我教我教我教我教我教我教我教我教我
2025-01-06 12:57:58
1195
原创 CPT204 Advanced OO Programming(2)
CPT204是这样的,erick只要课改和把代码往ppt堆就可以,可是学生要考虑的事情就很多了
2024-06-12 15:32:11
1249
原创 分布移位下用于泛化的泛化的自监督测试时训练
在本文中,我们提出了测试时训练(test - time Training),这是一种在训练数据和测试数据来自不同分布时提高预测模型性能的通用方法。我们将单个未标记的测试样本转化为自监督学习问题,在进行预测之前更新模型参数。这也自然地扩展到在online stream中的数据。我们的简单方法可以改善不同的图像分类基准,旨在评估对分布变化的鲁棒性。主要是复现实验理解用写的略有点草率
2024-04-19 15:33:41
1322
原创 语义分割图像预处理代码小汇总
我常用的一些语义分割深度学习预处理代码,包括给把coco格式的数据转换成mask, 对文件名的各种修改,二值标签处理,数据集划分,修改图片大小等等
2024-04-14 16:59:58
443
原创 PairAug:增强图像-文本对对放射学有什么用?
总算迁移学习的工作差不多弄完了回来继续搞多模态了!在本文中,我们提出了一种名为PairAug的方法来解决在放射学中获取配对图像-文本数据集的挑战。paiaug包含两个分支:InterAug和IntraAug。InterAug生成与可信报告配对的合成放射学图像,创建新的患者病例,而IntraAug专注于为每个人生成不同的配对数据。我们采用数据修剪技术来确保高质量的数据。各种任务的实验结果表明,PairAug优于仅关注图像或文本扩展的基线方法。
2024-04-11 23:54:09
1152
原创 FDA: 用于语义分割的傅里叶域自适应
我们描述了一种简单的无监督域自适应方法,即通过交换源和目标分布的低频频谱来减小源和目标分布之间的差异。我们在语义分割中说明了该方法,其中密集注释的图像在一个领域(例如,合成数据)中很丰富,但在另一个领域(例如,真实图像)中很难获得。目前最先进的方法是复杂的,一些需要对抗性优化,以使神经网络的主干对离散域选择变量保持不变。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其逆变换。尽管它很简单,但当集成到相对标准的语义分割模型中时,它在当前基准测试中实现了最先进的性能。
2024-03-18 16:13:38
1817
原创 FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用
为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。
2024-03-12 15:59:52
2398
3
原创 DLTTA:跨域医学图像测试时间自适应的动态学习率
本文解决了具有挑战性的测试时自适应问题,旨在通过学习测试时提供的推理样本,将深度模型推广到未知数据分布。本文提出了一种测试时间适应的动态学习率策略,旨在根据估计的预测差异动态调整模型更新的步长。
2024-02-19 11:21:17
1632
原创 神经调节的Hebbian学习用于完全测试时自适应
我们从生物学合理性学习中获得灵感,其中神经元反应是基于局部突触变化过程进行调整的,并由竞争性侧抑制规则激活。基于这些前馈学习规则,我们设计了一个软Hebbian学习过程,为Test-Time adaption 提供了一种无监督的有效机制。我们观察到,通过加入反馈神经调节层,这种前馈Hebbian学习完全适应测试时间的性能可以显著提高。
2024-01-29 15:55:13
1260
CPT107 离散数学 期末复习笔记配套例题
2023-01-06
CPT107 期末复习笔记
2023-01-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人