多模态
文章平均质量分 50
music&movie
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态工程师面试--准备
图像生成的应用场景:https://blog.youkuaiyun.com/weixin_42181686/article/details/152329682主流模型对比:https://blog.youkuaiyun.com/weixin_52582710/article/details/146297237https://blog.youkuaiyun.com/Liudef06/article/details/150264998https://blog.youkuaiyun.com/gitblog_00856/article/details/15209原创 2025-11-12 23:29:38 · 156 阅读 · 0 评论 -
面试的问题
主题:LLM相关、多模态相关、python编程、java编程。原创 2025-06-25 02:41:01 · 342 阅读 · 0 评论 -
FunASR和paraformer的关系 && 语言识别模型和vad_model、punc_model、spk_model的关系
FunASR:模块化语音处理框架,集成VAD、ASR、PUNC、SPK等组件。Paraformer:FunASR中的高效ASR模型,支持工业级长音频和实时场景。协作关系:VAD、PUNC、SPK模型围绕ASR核心,分别处理语音分段、标点恢复和说话人分离,共同实现“语音→结构化文本”的完整功能。原创 2025-06-04 12:13:42 · 1962 阅读 · 0 评论 -
手写系列——transformer网络完成加法和字符转译任务
【代码】手写系列——transformer网络完成加法和字符转译任务。原创 2025-05-10 10:25:24 · 419 阅读 · 0 评论 -
手写系列——VIT网络
【代码】手写系列——VIT网络。原创 2025-02-20 16:45:20 · 199 阅读 · 0 评论 -
具身系列——零样本倒水任务
的视觉编码层和策略网络结构,实现缝葡萄等更高精度的操作任务(需增加触觉传感器模拟)。• 采用CLIP模型处理视觉输入,将摄像头画面映射到512维特征空间。• 关节传感器数据(28自由度)与视觉特征拼接,形成680维状态向量。• 采用PPO算法保证训练稳定性(类似搜索中提到的GRPO优化)• 在策略网络中添加跨模态注意力层,实现不同杯具的泛化操作。该实例复现了搜索结果中机器人的核心能力,开发者可通过调整。• 动作频率达到100Hz,满足毫秒级响应需求。• 通过视频编码器提取人类动作的语义特征。原创 2025-04-25 01:23:07 · 345 阅读 · 0 评论 -
具身系列——NLP工程师切入机器人和具身智能方向
职位高频词汇:VLM调优经验、核心算法(Diffusion、RL、VIT)、pytorch、仿真环境(Isaac Gym、Mujoco、webots)原创 2025-03-24 14:56:45 · 1297 阅读 · 0 评论 -
多模态系列——调研可在笔记本电脑端部署的多模态大模型
如需具体模型的部署配置文件或性能测试数据,可参考各项目的GitHub仓库(Gemma、Janus-Pro)。• 多模态支持:文本、高分辨率图像、短视频混合输入,动态图像切片技术可处理1小时视频仅需20秒。• 轻量化设计:1B参数模型支持CPU+GPU混合推理,显存占用可压缩至6GB。• 显存占用:4位量化后仅需4-5GB显存,剩余资源可用于图像预处理和缓存。• 多任务能力:同步支持图像生成(文生图)与理解(OCR+场景分析):需平衡性能与资源消耗的场景(如视频分析):侧重轻量化与图像生成能力(如创意设计)原创 2025-03-19 04:25:25 · 2177 阅读 · 0 评论 -
模型蒸馏系列——开源项目
通过CLIP模型对齐教师模型的视觉-文本特征空间,例如将图像特征与文本描述映射到同一隐空间。:采用分组注意力(Grouped Attention)替代传统多头机制,降低内存占用30%:完整实现从数据清洗到模型部署的全流程,支持单卡低成本训练,代码全透明,适合教学与实践。:支持视觉-语言联合蒸馏,结合MoE架构提升参数效率(激活参数减少77%):25.8M(约0.02B参数),比GPT-3小7000倍。:动态稀疏激活(仅20%神经元参与推理):模仿教师模型的输出分布(KL散度损失)原创 2025-03-15 21:05:26 · 775 阅读 · 0 评论 -
具身系列——零样本倒水任务
的视觉编码层和策略网络结构,实现缝葡萄等更高精度的操作任务(需增加触觉传感器模拟)。• 采用CLIP模型处理视觉输入,将摄像头画面映射到512维特征空间。• 关节传感器数据(28自由度)与视觉特征拼接,形成680维状态向量。• 采用PPO算法保证训练稳定性(类似搜索中提到的GRPO优化)• 在策略网络中添加跨模态注意力层,实现不同杯具的泛化操作。该实例复现了搜索结果中机器人的核心能力,开发者可通过调整。• 动作频率达到100Hz,满足毫秒级响应需求。• 通过视频编码器提取人类动作的语义特征。原创 2025-03-15 20:43:48 · 411 阅读 · 0 评论 -
基于cross-attention算法关联文本和图像、图像和动作
基于cross-attention算法关联动作策略和图像,可以举一个可以运行的例子吗?基于cross-attention算法关联文本和图像,可以举一个可以运行的例子吗?原创 2025-03-08 11:15:02 · 482 阅读 · 0 评论 -
手写系列——基于CrossAttention结构的网络
【代码】手写系列——基于CrossAttention结构的网络。原创 2025-02-27 04:17:38 · 337 阅读 · 0 评论 -
视频理解任务综述 & VLM多模态大模型概览
长视频通常持续数分钟甚至数小时,通常由多个事件组成,与短视频相比,包含更丰富的空间内容和时间变化。长视频理解不仅涉及空间和事件内的时间推理,还涉及事件间推理和来自不同视频事件的长期推理。与仅涉及静态视觉数据的图像理解任务不同,短视频理解还结合了来自多个视觉帧的时间信息。除了空间推理,事件内的时间推理和跨帧的时空推理在短视频理解中发挥着至关重要的作用。图像理解任务涉及单张图像用于各种视觉推理任务,如图像标注和以图像为中心的问题回答。通用图像理解模型:图像分类、目标检测、图像分割。原创 2025-01-09 14:34:28 · 976 阅读 · 0 评论 -
代码填空任务---自编码器模型
【代码】代码填空任务---自编码器模型。原创 2025-01-08 16:33:14 · 457 阅读 · 0 评论 -
理解Cross Attention机制、CLIP模型、Q-Former机制和BLIP模型
从零实现Cross Attention:人工智能|深度学习——多模态条件机制 Cross Attention 原理及实现-优快云博客多模态条件机制 Cross Attention 原理及实现_cross attention代码-优快云博客交叉注意力机制CrossAttention-优快云博客微调CLIP模型:CLIP微调方法总结-优快云博客了解Q-Former机制和BLIP模型:【有啥问啥】多模态大模型应用中的Q-Former是什么?_qformer-优快云博客https://zhuanlan.z原创 2024-12-10 19:45:40 · 1075 阅读 · 0 评论 -
手写系列——AE网络、VAE网络和Condition VAE网络
--候选解2,潜在表示,也就是重构材料 Z_k 是采样得到的,并不是像常规 AutoEncoder 那样由 Encoder 直接计算得到,因此这部分也就相当于噪声,它的随机性在干扰重构的过程。此时,损失函数的第二项就起到了作用,它让潜在空间的后验分布逼近标准正态分布 N(0, I),从而避免了随机性消失,也就是方差变成0的情况,相当于对训练过程的正则化。---候选解1,普通的 AutoEncoder,其 Encoder 生成的是有关样本的“信息”,也就是潜在表示,这样算出来的值是确定的。原创 2024-11-26 17:10:33 · 449 阅读 · 0 评论 -
文生视频实践
参考:从头开始构建一个小规模的文生视频模型_文生视频模型开发流程-优快云博客原创 2024-11-26 16:55:55 · 149 阅读 · 0 评论 -
AIGC的2+1个基座模型——Transformer、Diffusion、MOE以及PPO
self-attention、multi-head-attention、cross-attention的理论分析与计算过程代码层面比较freeze、lora、p-tuning方法成功训练nanoGPT 应用nanoGPT训练中文语料 ChatGPTBook——基于GPT-2模型的文本摘要实战分析gpt2 神经网络常微分方程 (Neural ODEs) 的解析和实现diffusion model原理与实现过程stable diffusion架构分析逐步认识Diffusion模型-优快云博客MOE原理解释及从原创 2024-11-24 10:36:02 · 296 阅读 · 0 评论 -
逐步认识Diffusion模型
什么是Diffusion模型? - wrong.wang原创 2024-11-17 21:06:27 · 204 阅读 · 0 评论 -
与AIGC有关的数字人开源项目
多模态数字人算法方向:原创 2024-11-14 11:26:08 · 437 阅读 · 0 评论 -
win11安装paddle
安装教程_飞桨-源于产业实践的开源深度学习平台原创 2024-11-14 00:21:53 · 373 阅读 · 0 评论 -
Win11上安装使用Diffusers库和modelscope库
不设置scheduler导致生成图像很慢。原创 2024-11-13 03:33:26 · 800 阅读 · 0 评论 -
CogVideo安装
参考:原创 2024-11-09 03:23:16 · 627 阅读 · 0 评论 -
AI生视频尝鲜
商用:字节 即梦:快手 可灵:智谱 清影:讯飞 星火绘镜:其他 AI Sora:开源:原创 2024-11-07 04:53:01 · 263 阅读 · 0 评论 -
stable diffusion资源
提示词写法教程:一文搞懂Stable Diffusion提示词,收藏这篇提示词合集就够了_stable diffusion 提示词-优快云博客提示词快速入门 - Stable Diffusion WebUI使用手冊 - Stable Diffusion文档中心风格速查表: https://sdcs.qpipi.com/提示词在线生成: https://prompt.qpipi.com/模型库:https://www.qpipi.com/文生图app:LiblibAI-哩布哩布AI - 中国领先的AI创作平原创 2024-08-16 03:04:07 · 191 阅读 · 0 评论 -
测试Stable Diffusion扩展:用中文写提示词
本文测试的扩展:sd-webui-prompt-all-in-one。其他可选的扩展:sd-prompt-translator。原创 2024-08-16 01:47:21 · 274 阅读 · 0 评论 -
controlnet实战
下载到模型路径:/home/ubuntu/stable-diffusion-webui/extensions/sd-webui-controlnet/models。明显启用controlnet效果好很多。原创 2024-08-14 02:26:09 · 239 阅读 · 0 评论
分享