熵减纪元-优快云博客

原创【BUG】flash_attn_2_cuda.cpython-312-x86_64-linux-gnu.so: undefined symbol: _ZN3c105ErrorC2ENS_14Sourc

在复现RexOmni项目时，安装torch 2.7.0和flash-attn 2.7.4.post1版本后出现符号未定义错误。经排查发现是版本不匹配导致的问题。解决方案显示：torch 2.6.0搭配flash-attn 2.7.4.post1可正常工作，而torch 2.7.1与flash-attn 2.8.0.post2的组合在某些平台上会失败。该问题已在相关PR中被记录。

2025-12-08 21:20:27 177

原创【论文速过】3B!目标检测SOTA！专为目标检测而生的MLLM Rex-Omni!

本文提出Rex-Omni模型，旨在结合传统视觉模型精准定位和多模态大语言模型(MLLM)复杂理解的优势。针对MLLM在物体检测中存在的坐标离散化和重复预测问题，研究团队采用三方面创新：1)统一任务为坐标预测；2)构建2200万高质量训练数据；3)通过监督微调(SFT)和强化学习(GRPO)两阶段训练，显著减少重复预测。实验表明，该模型在COCO检测、VisDrone密集场景等任务中表现优异，验证了强化学习对提升视觉任务精度的有效性。研究突破了MLLM"眼手不协调"的限制，为构建兼具理解力

2025-12-08 14:59:43 712

原创为了把“雷姆”带回家，我决定从零手搓一只“眼睛”。

人形机器人的身体已进化到难辨真假，为何脸部却始终停留在“面具”时代？是害怕恐怖谷，还是算不过来账？我认为，未来的机器人若无情绪价值，不过是堆废铁。为了打破僵局，我决定从零手搓一只“注入灵魂”的仿生眼。从技术瓶颈到硬核实战，来看我如何给机器“点睛”。

2025-12-06 17:25:57 1218

原创【Step0.1】零基础 | 让仿生人眼能够仿照视频做出响应动作

本文探讨了如何利用视频驱动仿生人眼实现动作模仿的技术方案。研究采用"视觉-映射-执行"的三步流程：首先通过MediaPipe等工具从视频中提取人眼3D视线数据，然后转换为电机控制信号，最终驱动机械结构运动。技术选型对比了GazeTracking和MediaPipe方案，后者因安装便捷胜出。实验实现了基于2D特征点的视线估计，但发现存在头部姿态干扰和眼睑遮挡导致的识别漂移问题。研究指出要提升真实感还需解决扫视速度、眼睑协同和微颤等细节，代码已开源供进一步优化。

2025-12-06 16:22:10 890

原创【论文速过】DeepEyes: Incentivizing “Thinking with Images“ via Reinforcement Learning

摘要：本文提出DeepEyes系统，通过“交错多模态思维链”（iMCoT）和强化学习，使AI自主学会“放大观察”的视觉推理策略。传统多模态模型依赖压缩图像和文本推理，难以捕捉细节；而DeepEyes模拟人类“看-想-再看”的观察模式，动态调用放大工具聚焦关键区域。实验表明，仅7B参数的模型在细粒度视觉问答任务中超越GPT-4o等大模型，准确率提升18.9%，且逐步学会精准使用放大镜。该方法无需人工标注操作步骤，通过奖励机制即可实现工具学习，为小模型高效利用工具提供了新思路，同时增强AI决策的可解释性。

2025-12-05 15:28:04 607

原创【论文速过】Agent-ScanKit：通过敏感度扰动揭示多模态智能体的记忆与推理能力

摘要：当前多模态AI智能体在GUI操作任务中表现优异，但实际应用时频繁失败。研究发现，这些模型可能依赖记忆而非推理能力，导致泛化性差。为此，研究者提出Agent-ScanKit测试框架，通过视觉遮挡、文本删减和结构干扰三类扰动实验，系统评估18个主流模型的真实能力。结果显示：多数模型通过死记硬背坐标或指令模式完成任务，缺乏真正的视觉理解；强化学习和思维链技术仅部分缓解问题。该研究揭示了现有智能体的“伪智能”本质，强调需开发具备局部视觉推理能力的模型，而非单纯扩大数据或参数规模。

2025-12-05 15:24:36 904

原创【论文速过】迪士尼经典论文Realistic and Interactive Robot Gaze

迪士尼研发新型互动机器人，让电子人偶更生动自然迪士尼研究中心开发了一套创新的机器人系统，旨在提升乐园电子人偶的互动能力。该系统通过三层架构实现：感知层用摄像头捕捉游客行为，决策层基于状态机判断互动状态，表现层运用动画原理实现流畅动作。特别设计了眼球扫视技巧，创造真实注视的错觉。实验证明，这种结合机器人技术和动画艺术的方法能有效增强短时互动的"生命感"。未来有望通过参数调整赋予机器人不同"性格"，但目前系统在长时间近距离互动中仍有局限。这项研究为提升主题乐园互动体验提

2025-12-05 11:47:05 690

原创【杂谈&反思】停止“埋头苦干”

科研新手的成长反思与改进建议本文反思了科研新手常犯的两个主要问题：一是缺乏科学方法论指导，急于动手导致无效劳动；二是时间管理不当，在多任务并行时效率低下。针对这些问题，文章提出了系统性的改进方案：建立工程SOP（包括强制设计文档、检查清单和前期调研）、优化时间管理（采用主题日策略和断点记录）、加强沟通协作（主动同步和预期管理）。这些建议既包括具体可执行的操作方法，也涉及思维方式和沟通技巧的调整，旨在帮助科研新手提高工作效率，避免重复劳动。

2025-12-04 23:09:25 771

原创实操！怎么样为自己的项目创建一个可执行的docker镜像交付给甲方？（示例项目包含pytorch+ai+LLM+训练/推理）

本文介绍了使用Docker打包深度学习项目的完整流程。首先阐述了Docker的价值：它能将程序、依赖、配置和系统环境打包成镜像，解决"在我电脑能跑，你的电脑跑不了"的问题。然后详细讲解了创建Docker镜像的步骤：1)确认项目所需的Python、PyTorch和CUDA版本；2)选择合适的基础镜像；3)编写Dockerfile安装系统依赖和Python包；4)构建镜像并本地测试；5)最终交付给甲方。文中还提供了完整的Dockerfile示例和构建脚本，涵盖了镜像源设置、GPU支持检测等实

2025-11-23 20:37:12 245

原创利用基础模型(LLM和视觉基础模型DINO结合)的少样本目标检测(FSOD)

摘要：本文提出了一种基于基础模型的少样本目标检测框架（FM-FSOD），通过结合DINOv2视觉模型和大语言模型（LLM）解决传统方法在少样本学习中的瓶颈。该方法采用三阶段流程：首先利用DINOv2提取图像特征；然后通过Transformer生成候选区域；最后创新性地使用LLM进行上下文感知分类。实验表明，在PASCAL VOC和MS COCO数据集上，该方法在10-30样本场景下显著优于现有技术，验证了基础模型组合的有效性。研究揭示了利用预训练模型解决复杂视觉任务的潜力，同时指出极端少样本（1-shot

2025-09-22 10:49:28 824

原创揭秘通义DeepResearch

《通义DeepResearch：AI智能体的突破性训练方法》摘要阿里云团队开发的"通义DeepResearch"旨在解决当前AI智能体处理复杂任务的能力局限。该技术通过创新性的三阶段训练法：增量预训练基础能力、有监督微调标准流程、强化学习自我进化，配合自动生成的高质量训练数据系统，成功打造出能独立解决复杂问题的AI智能体。实验证明，该方法在国际基准测试中超越众多开源模型，并在高德地图智能助手等实际应用中验证了有效性。该研究为AI领域提供了完整的智能体培养方案，强调高质量数据和通用方法的

2025-09-18 12:03:38 937

原创 UI-S1: ADVANCING GUI AUTOMATION VIA SEMIONLINE REINFORCEMENT LEARNING

论文遵循了机器学习的标准做法：使用名为 "AndroidControl-

2025-09-17 20:54:17 803

原创 PROCESS REINFORCEMENT THROUGH IMPLICIT REWARDS

本文提出PRIME框架，通过隐式过程奖励模型(ImplicitPRM)实现仅需最终答案反馈即可优化大语言模型(LLM)的推理过程。该方法创新性地利用标准模型作为参照，根据模型置信度和最终答案正确性自动生成细粒度过程奖励，解决了传统过程奖励方法面临的三大难题：人工标注成本高、奖励hacking风险以及独立PRM训练开销。实验表明，Eurus-2-7B-PRIME模型在数学推理任务上性能提升15.1%，训练效率提高2.5倍，且仅需10%的数据量即超越同类模型。研究还发现，直接使用学生模型作为评分老师和从零开始强

2025-09-16 17:39:36 575

weixin_53318684的博客