apd_csdn-优快云博客

原创 Qwen 3 VL 图像预处理、图像增广接入Processor

本文针对Qwen3VL/2VL/2.5VL训练中的图像预处理问题，设计了可用的数据处理管线collator.不同输入（路径、numpy数组、torch.Tensor、PIL Image）的处理方法。关键发现包括：numpy和Tensor输入需设置do_rescale=False以避免值域转换错误，PIL Image可直接使用默认处理；所有格式都应确保RGB通道顺序和(H,W,C)形状。通过实验验证了各格式的正确配置方式，为视觉模型训练中嵌入图像增强操作提供了实用指导，确保预处理后的编码结果与原始图像一致。

2025-12-04 15:25:41 1091

原创快速构建前端应用: 从图中提取曲线坐标数据的在线工具

为了从一个图片形式的曲线图中提取坐标数据，可以采用Origin、WebPlotDigitizer这一类较为成熟的工具。但是这个前端功能考虑到还算简单，为什么不用AI代码生成构建一个前端应用呢？因此尝试用nocode进行了一次实践。

2025-11-23 17:13:25 409

原创 embedding模型 Instructor-embedding安装/推理报错解决方案

原因是现在的transformers、huggingface库更新速度太快，基本上月更，所以需要修补各种版本上的问题。中的指引安装embedding模型instructor时，遇到了多种报错。直接用sentence-transformer框架进行推理，读取权重文件。注：默认embeddings未经过normalize。

2025-05-19 17:57:01 359

原创利用Open AI SDK批量图文推理/标注

请将准备好的模型url和密钥填入。允许该对象在其他异步loop中使用。base_url="https://xxx/api/v1", # 替换为你的 base_urlapi_key="" # 替换为你的 API 密钥。

2025-05-15 17:30:15 453

原创 GRPO多模态奖励函数：利用大模型API接入

核心函数是`process_batch(self,batch_title:list,batch_img:list)` 函数接收列表中的一系列打分指令和内容文本，同时支持每个样本输入一张图片（如果是多图，请参考openai SDK接入指定模型的文档）。我们寻求一种方案，利用API接入的方式，在其他服务器上并行推理，计算奖励。打分文本`result_aes`由`my_api.process_batch()`给出，这是一个自定义的对象，用于并行的获取LLM API返回值，，需要并行处理该规则。

2025-05-15 16:52:03 1764

原创提高LoRA模型的推理速度：合并与GPTQ量化

为了兼顾推理速度与质量，需要对模型和 adapter 进行 16 位合并以及 GPTQ 量化，本文以Qwen 2.5-vl为例，实现一个合并与量化过程。⚠️ 把LoRA adapter挂载到量化后的base model上，或QLoRA的权重加载到16bit精度的base model上，会导致困惑度（ppl，越低越好）增高。采用GPTQ量化的模型，推荐用vllm进行推理，若采用transformers架构，实测推理速度很慢。训练阶段用LoRA，推理阶段也要用LoRA，本文适用LoRA的情况。

2025-05-10 13:57:03 1159

原创 from_pretrained()读取模型报错ForConditionalGeneration...‘NoneType‘ object is not iterable

后来发现model模型的文件夹位置填错了，有一层嵌套，所以有这个奇怪的报错。

2025-04-27 00:28:21 273

原创使用GRPO微调多模态VLM模型（Qwen 2.5 VL）

使用jupyter notebook载入、推理和LoRA强化微调一个Qwen 2.5模型* 使用GRPO强化微调，奖励函数等设定* 私有数据集上需要做微调适配，除了SFT，强化微调提供了其他可行方案。* 很多情况下数据集的图文对包含答案简短，推理信息需要模型自行补全。然而，一般的SFT训练决定了模型输出必须是数据集中简短的答案形式。GRPO训练有助于激发模型的推理潜能。

2025-03-28 13:02:05 7340 23

原创带有tqdm进度条、动态效果显示的log文件输出处理

很多时候程序的stdout输出包含了动态显示的效果，这些stdout输出如果直接保存为log文件、txt文件，动态效果会消失，并且占用很多行去显示。现在希望输出一个最终文件，使其展示效果，与命令行的显示效果相同。

2024-12-22 22:18:47 702

原创使用爱因斯坦积完成图像色彩（通道）变换

图像中有一类任务是对RGB通道进行变换，例如RGB转换CIE XYZ，或者颜色风格转移。这类变换可以用矩阵乘法表示图1. 未经gamma处理的sRGB到XYZ的转换矩阵，采用BT709标准，利用D65白点归一化。

2024-11-05 17:35:38 878

原创从度量张量、相关系数生成椭圆参数

度量张量、高斯随机变量相关系数都可以用椭圆来进行可视化，下面讲一下两者的本质和联系，以及绘制椭圆可视化过程中的常见问题。下面都以二维平面的椭圆为例。度量张量又叫黎曼度量，物理学译为度规张量，是指一用来衡量度量空间中距离，面积及角度的二阶张量。 xix_ixi为欧几里得空间中一点的坐标，在其构成的局部坐标系统中，对xix_ixi附近（切空间）的的点有x=xi+dxx=x_i+dxx=xi+dx，度量张量可记为G(xi)G(x_i)G(xi)，满足ds2=dxTG(xi)dxds^2 = dx^T

2024-11-01 11:51:47 1315

原创 Latex大矩阵缩小

latex中大矩阵常会占据很大篇幅，有时会超出页面或超出双栏中的一侧。常常需要对大矩阵进行缩小操作，美观的同时减少版面浪费。下面是几种常用的矩阵缩小方法，可以组合使用：（以下均用方括号矩阵bmatrix举例，其他类型矩阵替换该关键字即可）

2024-10-28 11:47:36 2396

原创流式读文件并删除已读部分——大文件边解压边删除原理

某些场景下，为了节省储存空间，我们希望读取文件流（file stream）后立即删除已读部分。例如超大文件解压，在完成一个chunk后不再需要读入这部分文件内容，因此可以边解压文件流边删除文件头部chunk大小字节。这种方案避免了常规解压在解压完成瞬间占用双倍空间（压缩包+解压后文件，一些游戏下载前提示100G本体需要200G可用空间）。核心代码包括文件流构建，ChainStream继承了io.RawIOBase类，并自定义readinto函数。流式截取，将给定文件向头部移动chunk字节，移动后截取。

2024-09-25 12:15:42 2736

原创改变RGB图像色温-实现和细节

采用基于白点的色温转换（色温(Kelvin)到RGB的转换：算法和样例_色温转rgb-优快云博客），需要注意算出白点后和原始像素线性加权混合，才能完成实际图像的色彩转换。

2024-09-11 16:16:06 1942

原创踩坑：ESP8266+HttpUpdate库升级-107报错

OTA升级时，ESP 01s只需保持正常工作模式接线即可，不需要进入烧录模式。如果OTA升级成功，串口会有输出，且通过指示灯可以观察到设备复位。Esp8266一个重要功能是OTA升级，允许在一次有线烧录后后续通过无线烧录方式升级。具体的OTA升级例程可以参考。

2024-08-24 12:54:50 909

apd_csdn的博客