AIGC
文章平均质量分 78
红酒暖心也暖胃
吃喝玩乐,洋洋皆可。。。。方便他人,方便自己
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Qwen2.5-VL-7B如何从输入到输出-代码解析(最终输入的解析)
本文总结了Qwen2.5-VL-7B多模态模型将文本、图片和视频输入转换为模型输入格式的完整流程。关键步骤包括:1)使用processor处理原始信息,生成图片和视频的切块特征;2)对文本中的特殊标记(image_token/video_token)进行替换处理,将每个图片/视频转换为对应数量的placeholder标记;3)最终通过tokenizer将处理后的文本转换为input_ids和attention_mask。整个过程实现了多模态信息的统一编码,为模型处理提供了规范的输入格式。原创 2025-08-11 16:49:00 · 504 阅读 · 0 评论 -
Qwen2.5-VL-7B如何从输入到输出-代码解析(image_processor解析)
文章摘要:本文解析了Qwen2.5-VL-7B模型中从文本和图像输入到图片切块处理的过程。通过对AutoProcessor初始化的代码分析,展示了Qwen2VLImageProcessor的配置参数(如归一化、尺寸调整等)以及Qwen2TokenizerFast的特殊token设置。重点介绍了processor如何将输入的text和images转换为模型可处理的张量形式,为后续的图像特征提取提供基础处理。文章是Qwen2.5-VL系列代码解析的第三篇,补充了前两篇关于图片解析和文本转换的内容。原创 2025-07-31 11:29:27 · 1631 阅读 · 0 评论 -
Qwen2.5-VL-7B如何从输入到输出-代码解析(chat_template解析)
本文深入解析了Qwen2.5-VL模型的chat_template处理机制,通过代码追踪揭示了从输入消息到格式化文本的转换过程。文章首先展示正常调用时如何通过processor.apply_chat_template()处理包含图片和文本的混合消息,然后层层深入分析了transformers库中的实现路径,最终定位到通过jinja2模板渲染的核心逻辑。作者还提供了伪代码形式的模板结构说明,详细解释了模板如何处理system/assistant角色、图片/视频标记以及生成提示等元素。该分析为理解多模态模型的消原创 2025-07-19 15:33:08 · 1437 阅读 · 0 评论 -
Qwen2.5-VL-7B如何从输入到输出-代码解析(图片解析)
文章摘要: 本文解析了Qwen2.5-VL-7B模型的架构与实现代码。作者从环境部署入手,展示了如何使用transformers库加载该多模态生成模型(支持图像理解与文本生成)。重点分析了模型的双分支结构:视觉分支(VisionTransformer)处理图像输入,包含32层注意力块;语言分支(TextModel)处理文本,具有28层解码器。文章还提供了标准的推理流程示例,包括图像URL处理、模板构建和生成结果解码。特别指出可通过调整min_pixels/max_pixels参数来平衡视觉token数量与性原创 2025-07-19 11:24:03 · 1366 阅读 · 0 评论 -
OCR表格识别效果对比
在当前数字化转型加速的背景下,光学字符识别(OCR)技术尤其是表格识别领域正经历从传统算法向AI大模型的范式转移。我最近通过系统性技术调研发现,针对开源OCR工具在表格识别场景的横向对比研究(传统基于规则和轻量级深度学习的OCR方案和新兴的多模态大模型方案)存在显著空白。基于此,本研究拟以2025年6月为时间节点,从多种复杂表格出发,对主流开源方案(包括PaddleOCR、MonkeyOCR、PP-StructureV3、Qwen2-VL)展开对比实验,旨在为工业界选型提供数据支撑。原创 2025-06-25 10:48:08 · 1546 阅读 · 0 评论 -
PaddleOCR环境安装-踩坑记录
本文记录了基于Docker环境部署PaddleOCR的完整过程及问题解决。作者选用PaddlePaddle 3.0 GPU版Docker镜像进行安装,在安装PaddleOCR时遇到PyYAML冲突、字体文件缺失、模型下载失败等系列问题。通过手动删除PyYAML、下载字体文件到指定目录、修改下载路径代码等操作逐步解决问题。最终成功运行OCR识别测试,验证了部署的有效性。全文详细记录了每个报错现象及对应的解决方案,为后续类似部署提供了实用参考。原创 2025-06-16 13:50:01 · 2282 阅读 · 0 评论 -
MiniCPM-V-2_6如何从输入到输出-代码解析(一)
之前写的等文章还是有不少人看的,NLP基本就是这样的处理流程了(当然有我还没发现的模型架构,比如说RWKV),这次尝试从Minicpm-V出发,将代码改写成我们熟悉的样子。原创 2025-03-20 16:31:36 · 628 阅读 · 0 评论 -
huggingface之tokenization基础结构Trie-代码解读
对字典树的代码进行解读,并对其中发现的一个bug进行标注且修改原创 2024-10-30 17:25:51 · 412 阅读 · 0 评论 -
attn_mask-代码解读
看到关于attn_mask给出了一个新的源文件,里面包含了创建4d_causal_attention源码,那是怎么实现的呢,一起来看一下吧。原创 2024-10-22 14:49:10 · 1623 阅读 · 0 评论 -
ROPE及各种变体-代码解读
看到关于rope给出了一个新的源文件,里面包含了rope及多种变体的源码,那都有哪些变体呢,又是怎么实现的呢,各个变体之间的区别和联系是什么呢,一起来看一下吧。原创 2024-10-17 11:57:52 · 1603 阅读 · 2 评论 -
MINICPM-V2_6图像+文本得到embedding-代码解读
基于将不同长度的图片patch embedding通过resampler变换成固定长度的patch embedding,那这个patch embedding是怎么和文本embedding到一起的呢?本篇从此出发,一起来看一下吧。原创 2024-09-25 17:22:42 · 1052 阅读 · 0 评论 -
MINICPM-V2_6图像得到embedding-代码解读
通过阅读代码,找到MINICPM-V2_6由图片得到embedding(位置编码和像素编码)的过程,并将代码本地化,每个代码都有对应的输入和输出,并详细的介绍了2D位置编码得到的过程。原创 2024-09-11 17:38:26 · 1288 阅读 · 0 评论 -
MINICPM-V2_6图像预处理流程-代码解读
通过阅读多个代码,找到MINICPM-V2_6对应的图片切片的过程,并将代码本地化,每个代码块都有完整的输入输出,且解读了代码的每一步流程原创 2024-09-10 16:57:16 · 2177 阅读 · 2 评论
分享