- 博客(18)
- 收藏
- 关注
原创 【BUG】flash_attn_2_cuda.cpython-312-x86_64-linux-gnu.so: undefined symbol: _ZN3c105ErrorC2ENS_14Sourc
在复现RexOmni项目时,安装torch 2.7.0和flash-attn 2.7.4.post1版本后出现符号未定义错误。经排查发现是版本不匹配导致的问题。解决方案显示:torch 2.6.0搭配flash-attn 2.7.4.post1可正常工作,而torch 2.7.1与flash-attn 2.8.0.post2的组合在某些平台上会失败。该问题已在相关PR中被记录。
2025-12-08 21:20:27
177
原创 【论文速过】3B!目标检测SOTA!专为目标检测而生的MLLM Rex-Omni!
本文提出Rex-Omni模型,旨在结合传统视觉模型精准定位和多模态大语言模型(MLLM)复杂理解的优势。针对MLLM在物体检测中存在的坐标离散化和重复预测问题,研究团队采用三方面创新:1)统一任务为坐标预测;2)构建2200万高质量训练数据;3)通过监督微调(SFT)和强化学习(GRPO)两阶段训练,显著减少重复预测。实验表明,该模型在COCO检测、VisDrone密集场景等任务中表现优异,验证了强化学习对提升视觉任务精度的有效性。研究突破了MLLM"眼手不协调"的限制,为构建兼具理解力
2025-12-08 14:59:43
712
原创 为了把“雷姆”带回家,我决定从零手搓一只“眼睛”。
人形机器人的身体已进化到难辨真假,为何脸部却始终停留在“面具”时代?是害怕恐怖谷,还是算不过来账?我认为,未来的机器人若无情绪价值,不过是堆废铁。为了打破僵局,我决定从零手搓一只“注入灵魂”的仿生眼。从技术瓶颈到硬核实战,来看我如何给机器“点睛”。
2025-12-06 17:25:57
1218
原创 【Step0.1】零基础 | 让仿生人眼能够仿照视频做出响应动作
本文探讨了如何利用视频驱动仿生人眼实现动作模仿的技术方案。研究采用"视觉-映射-执行"的三步流程:首先通过MediaPipe等工具从视频中提取人眼3D视线数据,然后转换为电机控制信号,最终驱动机械结构运动。技术选型对比了GazeTracking和MediaPipe方案,后者因安装便捷胜出。实验实现了基于2D特征点的视线估计,但发现存在头部姿态干扰和眼睑遮挡导致的识别漂移问题。研究指出要提升真实感还需解决扫视速度、眼睑协同和微颤等细节,代码已开源供进一步优化。
2025-12-06 16:22:10
890
原创 【论文速过】DeepEyes: Incentivizing “Thinking with Images“ via Reinforcement Learning
摘要: 本文提出DeepEyes系统,通过“交错多模态思维链”(iMCoT)和强化学习,使AI自主学会“放大观察”的视觉推理策略。传统多模态模型依赖压缩图像和文本推理,难以捕捉细节;而DeepEyes模拟人类“看-想-再看”的观察模式,动态调用放大工具聚焦关键区域。实验表明,仅7B参数的模型在细粒度视觉问答任务中超越GPT-4o等大模型,准确率提升18.9%,且逐步学会精准使用放大镜。该方法无需人工标注操作步骤,通过奖励机制即可实现工具学习,为小模型高效利用工具提供了新思路,同时增强AI决策的可解释性。
2025-12-05 15:28:04
607
原创 【论文速过】Agent-ScanKit:通过敏感度扰动揭示多模态智能体的记忆与推理能力
摘要: 当前多模态AI智能体在GUI操作任务中表现优异,但实际应用时频繁失败。研究发现,这些模型可能依赖记忆而非推理能力,导致泛化性差。为此,研究者提出Agent-ScanKit测试框架,通过视觉遮挡、文本删减和结构干扰三类扰动实验,系统评估18个主流模型的真实能力。结果显示:多数模型通过死记硬背坐标或指令模式完成任务,缺乏真正的视觉理解;强化学习和思维链技术仅部分缓解问题。该研究揭示了现有智能体的“伪智能”本质,强调需开发具备局部视觉推理能力的模型,而非单纯扩大数据或参数规模。
2025-12-05 15:24:36
904
原创 【论文速过】迪士尼经典论文Realistic and Interactive Robot Gaze
迪士尼研发新型互动机器人,让电子人偶更生动自然 迪士尼研究中心开发了一套创新的机器人系统,旨在提升乐园电子人偶的互动能力。该系统通过三层架构实现:感知层用摄像头捕捉游客行为,决策层基于状态机判断互动状态,表现层运用动画原理实现流畅动作。特别设计了眼球扫视技巧,创造真实注视的错觉。实验证明,这种结合机器人技术和动画艺术的方法能有效增强短时互动的"生命感"。未来有望通过参数调整赋予机器人不同"性格",但目前系统在长时间近距离互动中仍有局限。这项研究为提升主题乐园互动体验提
2025-12-05 11:47:05
690
原创 【杂谈&反思】停止“埋头苦干”
科研新手的成长反思与改进建议 本文反思了科研新手常犯的两个主要问题:一是缺乏科学方法论指导,急于动手导致无效劳动;二是时间管理不当,在多任务并行时效率低下。针对这些问题,文章提出了系统性的改进方案:建立工程SOP(包括强制设计文档、检查清单和前期调研)、优化时间管理(采用主题日策略和断点记录)、加强沟通协作(主动同步和预期管理)。这些建议既包括具体可执行的操作方法,也涉及思维方式和沟通技巧的调整,旨在帮助科研新手提高工作效率,避免重复劳动。
2025-12-04 23:09:25
771
原创 实操!怎么样为自己的项目创建一个可执行的docker镜像交付给甲方?(示例项目包含pytorch+ai+LLM+训练/推理)
本文介绍了使用Docker打包深度学习项目的完整流程。首先阐述了Docker的价值:它能将程序、依赖、配置和系统环境打包成镜像,解决"在我电脑能跑,你的电脑跑不了"的问题。然后详细讲解了创建Docker镜像的步骤:1)确认项目所需的Python、PyTorch和CUDA版本;2)选择合适的基础镜像;3)编写Dockerfile安装系统依赖和Python包;4)构建镜像并本地测试;5)最终交付给甲方。文中还提供了完整的Dockerfile示例和构建脚本,涵盖了镜像源设置、GPU支持检测等实
2025-11-23 20:37:12
245
原创 利用基础模型(LLM和视觉基础模型DINO结合)的少样本目标检测(FSOD)
摘要: 本文提出了一种基于基础模型的少样本目标检测框架(FM-FSOD),通过结合DINOv2视觉模型和大语言模型(LLM)解决传统方法在少样本学习中的瓶颈。该方法采用三阶段流程:首先利用DINOv2提取图像特征;然后通过Transformer生成候选区域;最后创新性地使用LLM进行上下文感知分类。实验表明,在PASCAL VOC和MS COCO数据集上,该方法在10-30样本场景下显著优于现有技术,验证了基础模型组合的有效性。研究揭示了利用预训练模型解决复杂视觉任务的潜力,同时指出极端少样本(1-shot
2025-09-22 10:49:28
824
原创 揭秘通义DeepResearch
《通义DeepResearch:AI智能体的突破性训练方法》摘要 阿里云团队开发的"通义DeepResearch"旨在解决当前AI智能体处理复杂任务的能力局限。该技术通过创新性的三阶段训练法:增量预训练基础能力、有监督微调标准流程、强化学习自我进化,配合自动生成的高质量训练数据系统,成功打造出能独立解决复杂问题的AI智能体。实验证明,该方法在国际基准测试中超越众多开源模型,并在高德地图智能助手等实际应用中验证了有效性。该研究为AI领域提供了完整的智能体培养方案,强调高质量数据和通用方法的
2025-09-18 12:03:38
937
原创 UI-S1: ADVANCING GUI AUTOMATION VIA SEMIONLINE REINFORCEMENT LEARNING
论文遵循了机器学习的标准做法:使用名为 "AndroidControl-
2025-09-17 20:54:17
803
原创 PROCESS REINFORCEMENT THROUGH IMPLICIT REWARDS
本文提出PRIME框架,通过隐式过程奖励模型(ImplicitPRM)实现仅需最终答案反馈即可优化大语言模型(LLM)的推理过程。该方法创新性地利用标准模型作为参照,根据模型置信度和最终答案正确性自动生成细粒度过程奖励,解决了传统过程奖励方法面临的三大难题:人工标注成本高、奖励hacking风险以及独立PRM训练开销。实验表明,Eurus-2-7B-PRIME模型在数学推理任务上性能提升15.1%,训练效率提高2.5倍,且仅需10%的数据量即超越同类模型。研究还发现,直接使用学生模型作为评分老师和从零开始强
2025-09-16 17:39:36
575
原创 RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb
最后一层2分类线性层应该是30*2。哥们儿模型维度错啦!
2024-03-06 16:05:11
402
1
原创 Linux下的clash怎么调整代理模式?一步搞定!
打开你的config.yaml文件,然后你会发现里边有一个mode: xxx 改成你想要的rule , direct就行。
2023-12-08 16:16:35
13648
6
原创 解决老版本webpack打包后没有index.html_放到服务器上Nginx没办法部署/部署后显示403Forbidden/index.html空白页
webpack打包,没有index.html,index.html空白页,迁移项目,使用vue-cli打包
2023-12-08 15:41:28
941
原创 科研0项目0排名17%跨专业_DEBUFF拉满如何保研?(不同于其他同学的全新思路)
首先就是,如果你处在保研的边缘,并且有保研的想法,请立马行动起来,使用第二点积累自己的筹码,丰富自己的简历,不要担心没保上怎么办,即便没保上,经过第二点后你的简历也比跟你一起找工作的人丰富的多,因为他们准备简历,照片文书等等材料肯定没有你早和全面。这个时候你就可以利用这个时间差去找实习,丰富自己的履历。其次就是,一定要不要脸,很多同学被稍稍平淡一点的回复就打退了,这是万万要不得的,也许这就是敲开石头的第一百零一次呢?一定要把握好每一个机会,机会来了就尽全力去抓住它!
2023-12-05 18:27:10
1567
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅