Lab4AI的博客

论文精选

关注

文章平均质量分 88

关注数：文章数：10 文章阅读量：6838 文章收藏量：135

作者: 大模型实验室Lab4AI

这个作者很懒，什么都没留下…

展开

专栏收录文章

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

本文提出TIRE方法，实现主体驱动的3D/4D生成。通过三阶段流程：Track识别填充区域、Inpaint逐步填充未观察区域、Resplat将2D结果重投影回3D空间。该方法在DreamBooth-Dynamic基准测试中表现优异，与其他3D/4D生成技术形成互补。研究团队来自多伦多大学等机构，成果发表于2025年10月。论文链接和阅读工具可通过Lab4AI平台获取。

原创 2025-11-27 18:46:23 · 370 阅读 · 0 评论
无需人工奖励！Meta FAIR华人团队提出「早期经验学习范式」，AI智能体像人类一样“从错误中成长”

Meta 提出的「早期经验」（Early Experience）范式，在模仿学习与强化学习之间架起桥梁，让智能体通过「行动 - 观察 - 反思」自主学习，无需外部奖励。

原创 2025-11-16 07:30:00 · 559 阅读 · 0 评论
7M参数，干翻巨无霸LLM！这款超小递归模型（TRM），在ARC-AGI上证明了“少即是多”

10月6日，三星AI实验室（Samsung SAIL Montréal）发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“**少即是多**”的更简单、更高效的递归推理模型—Tiny Recursive Model（TRM）。

原创 2025-11-16 07:30:00 · 638 阅读 · 0 评论
ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍

SAM3（SegmentAnythingModel3）代表了图像和视频分割领域的重大突破，这是一个基于概念提示的统一模型，能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割（PromptableConceptSegmentation,PCS），支持通过短名词短语（如“黄色校车”）、图像范例或二者组合作为提示，为所有匹配对象实例返回分割掩码和唯一标识。

原创 2025-11-16 07:30:00 · 711 阅读 · 0 评论
仅需五步！ SwanLab助力Qwen3-“VL “超小中文多模态模型的”拼接微调“之路

【摘要】Lab4AI推出Qwen3-"VL"实战课程，通过创新"拼接微调"技术将SmolVLM2视觉模块与Qwen3-0.6B模型对齐，结合SwanLab的实验追踪功能，帮助开发者低门槛构建中文多模态模型。该方案只需5步操作：准备账号、学习课程、配置监控、小批量训练（7-8分钟）和完整微调（30分钟）。

原创 2025-11-13 10:51:45 · 299 阅读 · 0 评论
【每日Arxiv热文】北大新框架 Edit-R1 炸场！破解图像编辑 3 大难题，双榜刷 SOTA

当前基于指令的图像编辑虽借助扩散模型取得进展，但仍面临挑战，本研究突破SFT范式的泛化性与可控性限制，解决扩散模型结合 RL 时的策略优化偏差问题。

原创 2025-10-29 11:39:42 · 783 阅读 · 0 评论
【每日Arxiv热文】还在为视频编辑发愁？港科大&蚂蚁集团提出Ditto框架刷新SOTA！

本文提出了一种创新的指令驱动视频编辑框架Ditto，通过构建高质量合成数据集Ditto-1M（包含100万个视频三元组）解决了数据稀缺问题。研究团队设计了自动化生成流程，结合图像编辑先验与视频生成技术，显著降低了计算成本。同时，提出的Editto模型采用模态课程学习策略，实现了从视觉引导到纯文本指令编辑的过渡。实验表明，该方法在指令跟随、时间一致性和视觉质量上均优于现有技术，为视频编辑领域建立了新基准。该研究为大规模视频编辑任务提供了数据生成和模型训练的完整解决方案。

原创 2025-10-27 17:43:59 · 830 阅读 · 0 评论
【每日Arxiv热文】ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍！

SAM3（SegmentAnythingModel3）代表了图像和视频分割领域的重大突破，这是一个基于概念提示的统一模型，能够检测、分割和跟踪图像视频中的对象。

原创 2025-10-17 16:56:23 · 887 阅读 · 0 评论
论文精选 | （ICCV 2025）从少样本示例中学习艺术图像编辑

精选论文提出了一种创新的两阶段照片涂鸦技术。该研究首先通过350万对数据预训练通用编辑模型OmniEditor；随后采用EditLoRA微调技术，仅需30-50对样本即可捕捉特定艺术风格。实验显示，该方法能有效平衡艺术风格迁移与背景完整性，为少样本条件下的个性化图像编辑提供了新思路。

原创 2025-08-05 13:41:08 · 894 阅读 · 0 评论
论文精选 |（CVPR 2025）生成式摄影：面向真实文本到图像合成的场景一致性相机控制

该论文针对现有文本到图像模型在相机参数控制和场景一致性上的不足，提出“生成摄影”新范式。实验表明，该方法在保持场景一致性的同时，能精准控制光圈、色温等专业摄影参数，显著优于现有模型。代码已开源，支持快速体验不同相机参数下的生成效果。

原创 2025-08-01 15:05:07 · 876 阅读 · 0 评论