
VLM
文章平均质量分 53
music&movie
这个作者很懒,什么都没留下…
展开
-
多模态系列——调研可在笔记本电脑端部署的多模态大模型
如需具体模型的部署配置文件或性能测试数据,可参考各项目的GitHub仓库(Gemma、Janus-Pro)。• 多模态支持:文本、高分辨率图像、短视频混合输入,动态图像切片技术可处理1小时视频仅需20秒。• 轻量化设计:1B参数模型支持CPU+GPU混合推理,显存占用可压缩至6GB。• 显存占用:4位量化后仅需4-5GB显存,剩余资源可用于图像预处理和缓存。• 多任务能力:同步支持图像生成(文生图)与理解(OCR+场景分析):需平衡性能与资源消耗的场景(如视频分析):侧重轻量化与图像生成能力(如创意设计)原创 2025-03-19 04:25:25 · 1109 阅读 · 0 评论 -
模型蒸馏系列——开源项目
通过CLIP模型对齐教师模型的视觉-文本特征空间,例如将图像特征与文本描述映射到同一隐空间。:采用分组注意力(Grouped Attention)替代传统多头机制,降低内存占用30%:完整实现从数据清洗到模型部署的全流程,支持单卡低成本训练,代码全透明,适合教学与实践。:支持视觉-语言联合蒸馏,结合MoE架构提升参数效率(激活参数减少77%):25.8M(约0.02B参数),比GPT-3小7000倍。:动态稀疏激活(仅20%神经元参与推理):模仿教师模型的输出分布(KL散度损失)原创 2025-03-15 21:05:26 · 478 阅读 · 0 评论 -
具身系列——零样本倒水任务
的视觉编码层和策略网络结构,实现缝葡萄等更高精度的操作任务(需增加触觉传感器模拟)。• 采用CLIP模型处理视觉输入,将摄像头画面映射到512维特征空间。• 关节传感器数据(28自由度)与视觉特征拼接,形成680维状态向量。• 采用PPO算法保证训练稳定性(类似搜索中提到的GRPO优化)• 在策略网络中添加跨模态注意力层,实现不同杯具的泛化操作。该实例复现了搜索结果中机器人的核心能力,开发者可通过调整。• 动作频率达到100Hz,满足毫秒级响应需求。• 通过视频编码器提取人类动作的语义特征。原创 2025-03-15 20:43:48 · 329 阅读 · 0 评论 -
具身系列——使用Raspberry Pi
镜像下载、烧录软件:ssh访问Raspberry Pi:原创 2025-03-01 06:40:21 · 209 阅读 · 0 评论 -
手写系列——基于CrossAttention结构的网络
【代码】手写系列——基于CrossAttention结构的网络。原创 2025-02-27 04:17:38 · 272 阅读 · 0 评论 -
具身系列——算法实践和仿真环境使用
使用Pybullet仿真环境。使用Gazebo仿真环境。原创 2025-02-26 15:00:08 · 322 阅读 · 0 评论 -
手写系列——MoE网络
【代码】手写系列——MoE网络。原创 2025-02-25 20:03:53 · 250 阅读 · 0 评论 -
手写系列——VIT网络
理论:【深度学习】详解 Vision Transformer (ViT)-优快云博客原创 2025-02-20 16:45:20 · 154 阅读 · 0 评论 -
视频理解任务综述 & VLM多模态大模型概览
长视频通常持续数分钟甚至数小时,通常由多个事件组成,与短视频相比,包含更丰富的空间内容和时间变化。长视频理解不仅涉及空间和事件内的时间推理,还涉及事件间推理和来自不同视频事件的长期推理。与仅涉及静态视觉数据的图像理解任务不同,短视频理解还结合了来自多个视觉帧的时间信息。除了空间推理,事件内的时间推理和跨帧的时空推理在短视频理解中发挥着至关重要的作用。图像理解任务涉及单张图像用于各种视觉推理任务,如图像标注和以图像为中心的问题回答。通用图像理解模型:图像分类、目标检测、图像分割。原创 2025-01-09 14:34:28 · 308 阅读 · 0 评论