自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据派THU

发布清华大学数据科学相关科研动态、教学成果及线下活动

  • 博客(5974)
  • 收藏
  • 关注

转载 【CVPR2025】DPC:双提示协作用于视觉-语言模型调优

在基于 CLIP 的提示调优(Prompt Tuning)优化过程中普遍存在,表现为对基础(目标)类别的持续微调会同时导致模型在新(未见)类别上的泛化能力下降。为了增强可解释性,我们证明了提示向量在优化过程中的特征通道不变性,为 DPC 的加权解耦提供了理论支持。在多个骨干模型上的广泛实验表明,DPC 能够在不引入任何外部知识的情况下,显著提升模型在基础类别上的性能,同时保持对新类别的泛化能力。具体而言,我们基于骨干提示(backbone prompt)克隆了一个可学习的并行提示,并引入了一个。

2025-04-02 17:03:21 12

转载 大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究

右侧图表显示了RMSNorm与LayerNorm之间的梯度比率,初期RMSNorm的梯度显著高于LayerNorm,随着学习进程的推进,这一差异逐渐减小。由于LayerNorm是在每个样本基础上独立应用的,不依赖于批量大小,因此在处理序列数据的模型中表现尤为出色。以加州住房数据集为例,采用归一化技术的模型(蓝线)展现出快速且稳定的学习曲线,而未归一化的模型(红线)则表现出学习不稳定性。从计算结果可见,未归一化的数据由于数值较大,产生了较大的MSE值,这可能导致梯度幅值过大,使模型训练过程不稳定。

2025-04-02 17:03:21 11

转载 ICLR 2025 | LLMs 能够理解时间序列异常吗?

受时间序列预测研究中关于 LLMs 行为的猜想的启发,研究者针对 LLMs 在时间序列异常检测方面的能力提出了关键假设。例如,LLMs 的自回归生成能力与时间序列步骤的外推相似,这为将 LLMs 应用于异常检测提供了理论基础。例如,人类在检测加速变化时比检测趋势反转更困难,如果 LLMs 表现出类似的感知偏差,那么它们在检测加速异常时的表现应该比检测趋势反转更差。结果表明,虽然 LLMs 能够理解简单的时间序列异常,但研究者并没有证据表明它们能够理解更微妙的现实世界中的异常。

2025-04-02 17:03:21 34

转载 【ETHZ博士论文】设计与分析:一种面向极大规模、高性能、模块化的智能体仿真平台

首先,许多基于智能体的仿真平台的性能低下至少带来四个不良后果:i)它限制了能够模拟大量智能体或复杂智能体行为的仿真能力,而这在建模大规模复杂系统(如生物学和流行病学)中是必要的。1)我们添加了定制的序列化机制以避免不必要的工作。我们的解决方案使TeraAgent能够:1)模拟5000亿个智能体(比现有技术提高了84倍),2)扩展到84,096个CPU核心,3)显著减少仿真时间(例如,TeraAgent在0.6秒内模拟8亿个智能体的迭代,而不是5秒),4)将可视化性能显著提高39倍。

2025-04-01 17:01:32 12

转载 当 DeepSeek 遇见数据库,大模型如何重构 DBA 的工作模式?

本文聚焦 DeepSeek 的技术创新,结合 OceanBase 在社区智能问答小助手场景中的实践,深入剖析 DeepSeek 在数据库智能运维、RAG 技术实践等方面的应用,以及其为 DBA 职业发展带来的机遇与挑战,全方位展现 DeepSeek 如何引领数据库管理迈向智能化新纪元。与传统模型相比,DeepSeek 采用了先进的技术如 DualPipe 技术和 FP8 混合精度,不仅提高了计算效率,还降低了能耗,使得 DeepSeek 能够在较低的成本下达到与大型模型相当的性能。

2025-04-01 17:01:32 36

转载 ICLR 2025 | 知识数据双驱动的开放系统空气质量预测

正是由于开放空气系统的复杂性,导致封闭系统假设的传统物理方程在开放系统中的适用性受到严重限制,甚至会引入错误的归纳偏置(Inductive Bias),影响模型的预测精度。传统方法通常分为基于物理的模型和基于数据驱动的模型。基于物理的模型通常面临高计算成本和封闭系统假设的限制,而数据驱动的模型可能忽略已知的物理动力学,使得时空相关性的建模变得困难。尽管物理分支捕捉了符合现实污染物变化的时空依赖,但它并没有考虑未被方程建模的时空关联,比如:温度和湿度对污染物传播的影响,以及时序特征模式之间的联系。

2025-04-01 17:01:32 29

转载 独家|DeepSeek-V3解释1:多头潜在注意

这一过程可用接下来的等式进行更加正式地描述,其中c^{KV}_t是潜在向量,W^{DKV}是将h_t的维数从(h_n·d_h)映射到d_c的压缩矩阵(这里上标中的D代表“下投影”,意思是压缩维数),而W^{UK}和W^{UV}都是将共享潜在向量映射回高维空间的上投影矩阵。为了解决这个冲突,作者提出了他们所谓的“解耦的RoPE”,通过在共享键向量的同时引入额外的查询向量,并且只在RoPE过程中使用这些额外的向量,同时保持原始键与旋转矩阵的隔离。需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。

2025-03-31 17:04:51 21

转载 准确率远超初级皮肤科医生,北大国际医院等开发深度学习算法,实现痤疮病变检测与分级

它可以帮助科学家处理和分析海量的数据,加速科学研究的进程。在前瞻性评估中,AcneDGNet 基于 AcnePKUIH 数据集进行测试,并与两位有 5 年以上经验的初级皮肤科医生(JD1 和 JD2)以及两位有 10 年以上经验的高级皮肤科医生(SD1 和 SD2)的诊断结果进行了对比 ,如图。在在线医疗场景中,科研人员从 AcnePA1 和 AcnePA2 数据集中精心挑选了测试数据,这些数据均来自患者使用智能手机拍摄并上传的图像,如下图所示,真实地反映了在线医疗中图像采集的实际情况。

2025-03-31 17:04:51 25

转载 【伯克利博士论文】迈向视觉-语言基础模型:局限、改进与泛化

结果表明,与 SFT 相比,RL 微调始终能带来更优越的泛化性能。通过 RL 训练的模型在规则修改的任务上表现更好,能够更有效地适应视觉输入的变化,甚至展现出增强的底层视觉识别能力。本论文提供了有力的证据,表明当前基于 SFT 的多模态基础模型训练存在局限性,并展示了 RL 在克服这些局限性方面的巨大潜力,为开发更具泛化能力和智能的 AI 系统铺平了道路。本论文研究了多模态基础模型在开发和训练中的关键挑战,重点关注当前监督微调(SFT)方法的局限性,并探索强化学习(RL)在实现鲁棒泛化方面的潜力。

2025-03-31 17:04:51 17

转载 ​ICLR 2025 | 无需训练!大幅增强多模态大模型对微小视觉细节的感知

为了进一步确认“小尺度”是否真的是模型无法识别小目标的因果原因,我们还进行了额外的“干预实验”:在输入原始图像的同时,我们把包含正确答案位置的最小正方形区域截取出来、放大到模型可接受的分辨率,再与原始图像共同输入到模型中。结果显示,特别是在小目标场景下,模型准确率都有了相当明显的提升;在本研究中,我们针对多模态大语言模型(MLLM)在辨识微小视觉信息时的局限性,提出了一套无需额外训练的“可视化干预”方法,巧妙地挖掘并利用模型自身的内部知识(注意力与梯度信息),从而提升模型对小尺度目标的感知能力。

2025-03-30 17:01:59 26

转载 全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

然后模型继续进行思考。使用行动任务测试数据集,给与基线模型相同的全局思考上下文(系统上下文)、相同的用户提示、相同的行动调用结果(注意基线模型的工具调用的格式和行动调用不一样),然后通过人工判断和一致性奖励模型来判断模型对任务的完成率,结果发现基线模型对任务的完成率没有文中提出的模型高。对于一致性数据集D'的一个样本:[(y1',y1,t1), (y2',y2,t2), ...., (yn',yn,tn)] ~ D',把样本里的 (yi',yi) 对封装到一个提示 xi 里,然后训练奖励模型判断一致性。

2025-03-30 17:01:59 22

转载 【斯坦福博士论文】神经网络凸优化公式化:理论、应用与超越

通过与压缩感知中最稀疏线性模型恢复的类比,我们证明了过参数化神经网络本质上学习能够有效解释数据的简单模型,这一结论得到了在随机生成数据集中观察到的相变现象的支持,从而确立了其卓越的泛化能力。最后,我们提出了一种半定规划(SDP)松弛,以近似具有平方ReLU激活的两层网络中的Wasserstein梯度,确保在特定条件下的紧密松弛,并展示了其在贝叶斯推断和COVID-19参数估计中的有效性。这些发现弥合了关键的理论空白,并引入了具有深远意义的创新方法,推动了我们对神经网络训练过程的理解。

2025-03-30 17:01:59 10

转载 何恺明带队新作「分形生成模型」:逐像素建模高分辨率图像、效率提升4000倍

该模型通过分而治之的策略,将高分辨率图像分解为多个小块进行逐像素建模,显著降低了计算成本(效率提升4000倍),并在高分辨率图像生成任务上表现出色,能够生成高保真度和细粒度细节的图像。与自然的分形结构类似,研究者设计的关键组件是定义递归生成规则的生成器,比如这样的生成器可以是自回归模型,如图 1 所示。如前文所述,本文分形生成模型类似于数学中的分形概念。结果显示,本文的分形框架在这一具有挑战性的重要任务上表现出色,它不仅可以逐像素生成原始图像,同时实现了准确的似然估计和高生成质量,效果如下图 2 所示。

2025-03-29 17:01:03 18

转载 【CVPR2025】4D LangSplat:基于多模态大语言模型的4D语言高斯溅射

尽管LangSplat成功地将CLIP特征嵌入到3D高斯表示中,在3D静态场景中实现了精度和效率,但它无法处理动态4D场,因为CLIP是为静态图像-文本任务设计的,无法捕捉视频中的时间动态。4D LangSplat绕过了从视觉特征中学习语言场的过程,而是直接通过多模态大语言模型(MLLMs)从对象级别的视频描述生成的文本中学习。具体而言,我们提出了一种多模态对象级别视频提示方法,包括视觉和文本提示,指导MLLMs为视频中的对象生成详细、时间一致且高质量的描述。

2025-03-29 17:01:03 14

转载 CVPR满分论文!一块2080Ti搞定数据蒸馏,GPU占用仅2G

软标签提供了更加丰富和细粒度的监督信息,可以指导合成数据更好地模仿真实数据的类别分布,提高合成数据的多样性。在模型微调阶段,NCFM用合成数据微调特征提取网络,使其更加适应合成数据的特征分布,从而进一步缩小合成数据和真实数据之间的特征差异,提高合成数据的真实性;通过交替优化合成数据以最小化NCFD,以及优化采样网络以最大化NCFD,NCFM在提升合成数据质量的同时,不断增强分布差异度量的敏感性和有效性。NCFD越小,说明两个分布越接近;在极小化阶段,固定采样网络的参数,调整合成数据,目标是最小化NCFD。

2025-03-29 17:01:03 13

转载 【CVPR2025】先过滤图像,后生成指令:视觉指令调优的预指令数据选择

对于大规模视觉-语言模型(Large Vision-Language Models, LVLMs)的训练需要依赖大量的图像-指令对数据集,这可能会带来高昂的成本。最近的研究尝试通过选择高质量图像-指令对的子集来减少VIT的运行时间,同时保持与全量训练相当的性能。大多数现有的VIT数据集严重依赖人工标注或付费服务(如GPT API),这限制了资源有限的用户为定制应用创建VIT数据集的能力。,这是一种更实用的数据选择范式,直接选择最有益的无标注图像,并仅为选定的图像生成指令。为了解决这一问题,我们提出了。

2025-03-28 17:02:27 19

转载 深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

通过采用模块化设计、严格的优化和对语言学原理的深入理解,开发者能够构建不仅能高效处理文本,还能捕捉人类语言微妙之处的系统。早期的算法,如经典统计模型中应用的方法,在处理人类语言的细微差别时常常表现不佳。在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。编码模块,将分词后的文本转换为数值表示;当前,分词已不仅仅是简单的文本切割过程,而是对语言单元进行智能管理的系统,确保后续处理步骤(如神经网络中的嵌入层)既高效又有效。

2025-03-28 17:02:27 13

转载 实测字节免费AI编程,还让不让Cursor活了

也就是说,在Builder模式下,哪怕完全不懂编程,也不会找bug,只要你会描述需求和看到的状况,都能在AI的帮助之下完成一系列的开发和部署流程。简单来说啊,它跟传统在IDE里面集成AI的逻辑是不一样的,Trae从底层架构开始就围绕着AI能力来构建,所以它比AI插件会更流畅、准确和优质。相比之下,不管是20美元一个月的cursor,还是10美元一个月的copilot,在能免费用R1这种高级模型的Trae面前,都显得黯然失色。哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。

2025-03-28 17:02:27 29

转载 【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

我们的关键见解是,与其让代理端到端地学习层次结构和低级控制,不如通过规划显式地强制模块化,从而实现更高效、能力更强的机器人学习。然而,在机器人技术中,仅靠规模可能不足以应对机器人任务的多模态性、缺乏易于获取的数据以及在物理硬件上部署的安全性和可靠性挑战。与此同时,当今一些最成功的机器人系统本质上是模块化的,能够利用每个模块的独立泛化能力来表现优异。受这些特性的启发,本论文旨在通过将这些组件整合为一个整体来解决构建通用机器人代理的任务:将模块化与大规模学习相结合,以实现通用机器人控制。

2025-03-27 17:01:53 22

转载 时序数据库和关系型数据库的区别是?

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。基于统一的底层数据文件 TsFile,数据可以在外部生成,加载至数据库内,也可以订阅数据库文件进行分发,数据互通非常便捷。否则,多个操作进行数据修改可能部分成功、部分失败,导致数据不一致。而时序数据库主要应用的工业物联网场景中,传感器采集的数据只来自单一数据源,每条数据都是传感器对该时刻测点数值(如温度、风力)的真实记录,

2025-03-27 17:01:53 19

转载 DeepSeek V3深夜低调升级,代码进化令人震惊,网友实测可媲美Claude 3.5/3.7 Sonnet

X 博主「orange.ai」对 DeepSeek V3、DeepSeek-V3-0324 与 Claude Sonnet 3.7 的海报设计结果进行了比较,同样表示前端代码能力相比上代有了显著增强。他表示,DeepSeek-V3-0324 大约可以实现 o1-pro70% 的性能,但它免费并且 API 价格比后者便宜了至少 50 倍。Hugging Face 地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main。

2025-03-27 17:01:53 32

转载 论文解读|【Nature Human Behaviour】基于移动复杂网络的城市不平等性评估方法

近日,清华大学电子系城市科学与计算研究中心与麻省理工学院,加州大学伯克利分校,芝加哥大学,耶鲁大学等国际知名高校开展跨学科合作,首次提出了基于网络科学的城市不平等性测量分析框架,用动态复杂网络建模城市空间中的人类移动行为数据,为城市规划与居民生活体验的不平等性分析提供了全新思路。城市科学与计算研究中心从网络科学视角提出了一个数据驱动的通用分析框架,将城市移动行为数据建模为一个动态复杂网络(图1),其中网络节点分别代表人和地点,动态连接的边表示人类移动行为的时空分布情况。

2025-03-26 17:01:33 23

转载 【CVPR2025】在去噪扩散模型中优化最短路径

通过优化初始残差(initial residuals),ShortDF能够提高反向扩散过程(reverse diffusion process)的效率,并提升生成样本的质量。我们认为,该研究为**交互式扩散模型应用(interactive diffusion-based applications)数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。,以提高去噪效率和生成质量。

2025-03-26 17:01:33 21

转载 独家 | 深入理解Transformer中的位置编码:从绝对位置编码到旋转位置编码

旋转位置嵌入(RoPE):结合绝对位置嵌入与相对位置嵌入的优势,高效且可扩展。旋转位置嵌入(Rotary Positional Embedding, RoPE)结合了绝对与相对位置嵌入的优点,通过旋转高维空间中的向量编码位置信息,实现位置编码。在自注意力机制中,注意力分数是根据一对标记之间的位置计算出来的,相对位置嵌入根据相对位置在注意力分数中添加一个偏置项,或者通过为每个可能的相对距离引入一个可学习的嵌入。相对位置嵌入是这样考量的,"I"与"student"的相对距离为3,与"am"的相对距离为1。

2025-03-26 17:01:33 59

转载 【博士论文】针对基于文本的基础模型的分类偏差分析与缓解

然而,我们提出了一种基于重加权(reweighting)的去偏方法,实验表明,无论是在零资源(zero-resource)设定下,还是在我们提出的无监督重加权去偏方法(unsupervised reweighting debiasing)下,都能增强模型的稳健性,并降低其对标签词选择的敏感性。尽管这些方法在NLP基准测试中表现卓越,并被广泛采用,但它们的可靠性仍然存在一定的争议,尤其是其对虚假相关性(spurious correlations)和隐含偏差(implicit bias)的敏感性。

2025-03-25 17:01:49 14

转载 时间序列特征提取:18 种高效工具库及其应用分析

通过 mlforecast 的 lag_transform 功能,用户可以进行基于窗口的特征提取操作,例如简便地构建移动平均特征,该特征能有效概括每个时间点前序列的平均水平,为预测提供重要信息。tsfel 的特征体系分为四个主要类别:统计类特征(如熵测量、基于直方图的特征)、时域特征(如自相关系数)、频域特征(如功率谱密度)以及分形特征(如去趋势波动分析)。基于 tsfeatures 开发的 FFORMA(特征型预测模型平均)方法在著名的 M4 预测竞赛中获得第二名的优异成绩,验证了其特征提取的有效性。

2025-03-25 17:01:49 23

转载 FANformer:融合傅里叶分析网络的大语言模型基础架构

2024年的一项研究表明,基于Transformer的LLM主要通过基于案例的推理解决数学问题,即记忆训练数据中的特定示例,并在推理过程中通过寻找相似案例进行泛化。预训练的FANformer-1B模型在tulu-3-sft-olmo-2-mixture数据集上进行了监督微调(SFT),形成FANformer-1B-SFT。在模型规模扩展实验中,FANformer在所有参数规模上始终优于标准Transformer,且仅使用标准Transformer 69.2%的参数即可达到相当的性能水平。

2025-03-25 17:01:49 43

转载 直播预告 | 强化学习暗战:ChatGPT与DeepSeek的技术路线终极对决

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

2025-03-24 17:06:51 14

转载 PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型

混合精度训练的核心思想是在大部分计算中使用较低精度执行数学运算,从而减少内存带宽和存储需求,同时在计算的关键环节保持必要的精度。它允许在训练过程中虚拟增加批量大小,其核心原理是为较小的批量计算梯度,并在多次迭代中累积这些梯度(通常通过求和或平均),而不是在每个批次后立即更新模型权重。虽然大部分优化关注点集中在模型内部结构和计算过程,但低效的数据处理同样可能造成不必要的瓶颈,影响内存利用和计算速度。在反向传播过程中,系统会重新计算缺失的中间值,这虽然增加了计算成本,但可以显著降低内存需求。

2025-03-24 17:06:51 39

转载 跨架构知识蒸馏:TimeDistill新范式助力高效时序预测

研究发现,尽管 MLP 的整体预测精度较低,但往往在某一部分样本上表现出色,这突显了其与教师模型之间存在一定的优势互补,强调了通过知识蒸馏向教师模型的学习互补知识的重要性。一个直觉的解决方案是知识蒸馏(Knowledge Distillation),通过将更大、更复杂的模型(教师模型)的知识迁移到较小、更简单的模型(学生模型),使其在提升性能的同时实现更高的计算效率。该方法通过蒸馏复杂模型的优势至轻量级模型,实现计算负担大幅降低的同时显著提升预测精度,为构建高效、高精度的时序预测模型提供了全新思路。

2025-03-24 17:06:51 51 1

转载 【CMU博士论文】外部知识增强的语言模型:用于代码生成与智能体开发

这项工作的预期目标是构建模型、环境和评估方法,既用于编程任务中的代码生成,也用于日常生活和工作场所中的大型语言模型(LLM)智能体,特别关注利用大规模数据源和外部知识进行模型预训练和检索增强模型。在第一部分中,我们探索代码生成模型的预训练。接下来,在第二部分中,我们进行代码生成的人类研究。最后,在第四部分中,我们探索将 LLM 作为智能体的交互式使用。不懂编程的终端用户也将受益于一种更自然的方式来指导计算机完成某些定制任务,即将计算机转变为他们的个人智能体,以高度的自主性和指令执行能力完成各种任务。

2025-03-24 17:06:51 13

转载 【斯坦福博士论文】受限条件下的表示学习

与之前需要在标注样本上进行微调的工作不同,我们的方法在推理过程中不更新模型参数,并且在许多少样本学习基准测试中达到了新的最先进水平。第四章,我们转向学习离散表示的限制。即使在过去的几年中,研究领域也在不断演变,并重新聚焦于新的挑战,这些挑战往往由改变社会、影响人类思维、生活和工作的潜力所驱动。它提供了正式的定义,探讨了早期表示学习算法的历史,并概述了这些方法通常需要满足的两个条件。我们的重点是在受限条件下学习表示,并朝着在表示学习表现不稳定、性能较差或“效果不佳”的环境中解锁表示学习迈出一步。

2025-03-23 17:01:26 34

转载 最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)

2024年12月5日,OpenAI的完整版o1模型进一步提升了性能,在美国AIME 2024数学考试中排名前500名学生之列,并显著超越了GPT-4o(解决了74%-93%的AIME问题,而GPT-4o仅为12%)。GPT模型的引入,特别是GPT-3,标志着AI的一个变革时代,展示了自回归架构和生成能力的强大功能。增强的推理能力 :尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs,但在推理任务中,它们的表现远远超越了后者,常常能与人类专家媲美。

2025-03-23 17:01:26 95

转载 不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

打造 Mercury 系列模型的是一家创业公司,名为 Inception Labs,该公司的创始人之一 Stefano Ermon 实际上也正是扩散模型(diffusion model)的发明者之一,同时他也是 FlashAttention 原始论文的作者之一。Inception Labs 今天发布的 Mercury 具有巨大的性能和效率优势,据 Kuleshov 推文介绍,基于来自 MidJourney 和 Sora 等图像和视频生成系统的灵感,该公司为 Mercury 引入了一种新的语言生成方法。

2025-03-23 17:01:26 36

转载 多模态大模型人类偏好对齐新范式MM-RLHF!10个评估维度全面提升

快手,中科院,南大合作从三个层面入手推动 MLLM alignment 的发展,包括数据集,奖励模型以及训练算法,最终的 alignment pipeline 使得不同基础模型在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对 LLaVA-ov-7B 模型进行微调后,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。实验结果表明,通过对齐过程,这两个方面的表现得到了显著改进,无需调整超参数。

2025-03-22 17:23:24 36

转载 【CVPR2025】通过高效提示与偏好优化增强SAM,实现半监督医学图像分割

为了应对这些挑战,我们提出了一种增强的Segment Anything Model(SAM)框架,该框架利用完全无监督方式生成的标注高效提示,同时通过对比语言-图像预训练和视觉问答捕捉关键的语义、位置和形状信息。我们采用直接偏好优化技术,设计了一种最优策略,使模型能够通过虚拟标注器模拟人类标注过程,仅需简单的评分或排名即可生成高保真度的分割结果。我们的框架在肺部分割、乳腺肿瘤分割以及器官分割等任务中,在X射线、超声和腹部CT等多种模态上均达到了最先进的性能,证明了其在低标注数据场景中的有效性。

2025-03-22 17:23:24 81

转载 Nature Medicine | 基于智能手表和智能手机的大脑健康远程评估和轻度认知障碍检测

研究人员通过机器学习模型分析数据后发现,基于智能设备的数据可以有效区分MCI患者和健康人群,且模型表现优异:MCI检测的灵敏度达到80.2%(即能正确识别出80.2%的MCI患者),特异性为78.7%(即健康人被误判为MCI的概率较低),结合主观+客观数据,分类效果最佳。这意味着,未来我们可能无需去医院进行复杂的测试,仅通过智能手机和手表的数据,就能远程筛查认知健康状况,为早期干预提供依据!该研究解决了当前认知健康研究中的偏倚来源,包括有限的代表性(例如,种族/民族、地理)和认知测量工具的准确性。

2025-03-22 17:23:24 42

转载 2025 超现代 Python 实用工具

作为 Black、autopep8、Flake8 和 isort 等传统工具的替代品,Ruff 凭借其独特的设计和强大的功能,正在成为 Python 开发者工具箱中的重要一员。Typer 是一个现代化的 Python CLI 开发工具,通过其简洁的 API 和强大的类型提示功能,帮助开发者快速构建高效、易维护的命令行应用程序。Rich 是一个现代化的 Python 终端美化工具,通过其丰富的功能和简洁的 API,帮助开发者以更美观、更直观的方式展示终端输出。Ruff 的最大亮点是其卓越的性能。

2025-03-21 17:07:11 24

转载 【CMU博士论文】在模型不准确的情况下实现可靠的基于模型的规划

随后,论文介绍了利用模型前提条件扩展机器人能力的算法。其次,我们提出了一种动力学适应算法,能够高效选择并更新学习到的动力学模型的数据,从而将能力扩展到更复杂的动力学场景(第5章)。我们考虑了多种类型的知识,例如基于物理的模型、学习到的动力学模型,以及从人类示范中学习的无模型技能。具体来说,我们学习并使用状态-动作空间中的区域,称为模型前提条件,在这些区域中,模型能够可靠地表示现实世界的动力学。尽管所有模型都存在局限性,但本论文认为,如果能够正确考虑模型的局限性,即使模型非常不准确,它们仍然是有用的。

2025-03-21 17:07:11 25

转载 机器学习特征筛选:向后淘汰法原理与Python实现

向后淘汰法是机器学习中一种重要的特征选择技术,其工作原理是从全部特征出发,逐步剔除对模型贡献度低的特征。本文详细介绍了向后淘汰法的工作原理、实施步骤、优势局限性,并提供了多种Python实现方式,包括基于statsmodels的自动化实现、手动实现以及基于Scikit-learn的递归特征消除。向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。向后淘汰法在特征选择过程中具有多方面的优势。

2025-03-21 17:07:11 19

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除