能掐会算两元一位-优快云博客

原创 VLM有哪些好的落地方向？

剩下的就是包含如下通用能力的qwenVL3了，可能定位分割检测这种任务还是普通小模型的天下。1. PaddleOCR-VL：通过0.9B超紧凑视觉-语言模型提升多语言文档解析。3. MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型。2. dots.ocr: 单一视觉-语言模型中的多语言文档布局解析。

2025-10-27 14:45:31 126

辨证”是中医诊断疾病的核心方法。它指的是通过望、闻、问、切四种诊察手段，收集患者的全部症状和体征（如舌象、脉象、面色、寒热、饮食、二便等），然后进行分析、综合，最终判断出疾病当前阶段的病位、病性等本质，从而概括为一个完整的“证型关键区分：“辨病”：是确定疾病的名称。例如，西医诊断的“高血压”、“糖尿病”，或者中医的“感冒”、“痢疾”。“辨证”：是确定机体在疾病过程中某一阶段的病理本质。例如，“风寒感冒”和“风热感冒”是同一个“病”的两种不同的“证”。简单比喻：病= 敌人入侵了（战争发生了）。证。

2025-09-30 16:02:04 769

原创工作文档去哪写

4. 还有微软的outlook还是哪个自带的，可以联网保存在云端，但是同步的速度比较慢。1. 最好用的还是Typora，但现在需要付费，可以使用破解版，但不一定work。3. 实在不行也可以vscode新建.md然后用演示模式，方便但是不适合插图片。2. marktext也不错。

2025-06-03 12:16:30 224

原创 torch精度原因排查

时，PyTorch 会强制使用确定性的卷积算法，这意味着每次运行代码时，卷积操作的输出结果是完全一致的。这对于调试模型和复现实验结果非常有帮助，因为可以确保每次运行代码时的随机性被消除。（默认值）时，PyTorch 会自动选择最快的卷积算法，这些算法可能不是确定性的。因此，每次运行代码时，卷积操作的输出可能会有微小的差异，尤其是在 GPU 上运行时。是 PyTorch 中的一个设置，用于控制 CUDA 的卷积算法是否使用确定性算法。

2025-05-22 10:38:14 233

原创 SAM foundation model 的应用

SAM 固有的某些限制：1.SAM的图像编码器是一个普通的对密集预测有用的特定于视觉的。这可能导致在处理复杂的分割任务时，ViT 的表现不如专门设计用于密集预测的模型（如基于 CNN 的 U-Net 或 DeepLab 等）。（如语义分割、实例分割等）是指模型在学习过程中所依赖的先验假设或倾向。：图像中的对象在平移后，其特征表示应保持一致。CNN 通过卷积操作自然地具备这一特性，而 ViT 需要通过位置编码来引入平移不变性。：图像的局部区域通常包含与分割任务相关的重要信息。

2025-05-19 14:40:16 845

原创低秩Low-Rank

低秩是模型压缩和优化领域的重要研究方向之一。低秩，是一种提高网络效率的操作，从高效训练/微调的角度，可以用Lora进行微调。从推理效率的角度，在lora finetune 大模型前就有低秩滤波器分解优化计算量和运算速度。

2025-05-19 11:16:14 1129

原创像素间的依赖关系

的优化技术，在分割中，对FCN输出的概率图进行优化，而不是直接取0.5为分割阈值。在图像分割中，图像被表示为一个图，其中。，边的权重通常反映了像素之间的相似程度。通过计算最小割，可以将图像分割成不同的区域，例如前景和背景。后处理：graph cut / CRF 精细化处理，使得粗糙的边界变得更加精细。CRF的核心思想是利用条件概率来描述像素之间的依赖关系。Graph Cut 是一种基于。条件随机场（CRF）是一种概率。

2025-04-17 10:23:28 148

原创 llamafactory finetune VLM qwenVL2-7B多模态意图识别

总结：1.对图片使用paddle-OCR生成observation提点不多2.finetuning_type: lora lora_target: all 相比于 finetuning_type: full，即Lora微调相比SFT全调差很多，有资源SFT选SFT吧。3.GUI图片页面分类使用(crop,masaic)等图像增强方式可以提高分类准确率，但后期过拟合了。训练集全预测正确，测试集反而分数降低。

2025-01-02 14:16:30 1054 1

原创评估量化模型精度损失情况

读取tflite中输入和输出tensor的量化scale zero_point值。

2024-12-24 15:59:41 370

原创百度图片最多检索结果

2. 设计了一下流程图，没找到哪里可以下滑页面，百度图片不是那种按钮式“下一页”的网页，而是滑条往下滑的网页。1. 是只能输出text么？只能把图片链接保存成csv，不能直接批量下载图片？而且百度图片一个关键词检索出来的数量还是有限的呢，最后还是迅雷的批量下载好用啊。为了爬虫百度图片学了下。

2024-12-13 13:55:42 373

原创 AI模型转换

3.1 NCHWNCHW是先取W方向数据；然后H方向；再C方向；最后N方向。3.2 NHWCNHWC是先取C方向数据；然后W方向；再H方向；最后N方向。

2024-12-09 11:35:17 547

原创抖3D特效

比如抖音中给猫做特效，由于猫的动作非常快，导致头部跟踪不即时，帧A猫还带了特效帽子，帧B猫也带了，中间时刻的中间帧没带，猫跑酷的时候都跑出残影了，头饰也必定出现闪帧。比如猫弓着屁股的时候，把屁股也识别为猫头了，给猫做的头饰带到了屁股上🙂。

2024-12-02 19:52:00 180

原创 CFtoOCT--图生图--模态转换--多模态模型

闲来无事，4090空着也是空着，train了一个竞赛，成绩倒数，作文以记之。

2024-12-02 18:24:46 1046

原创 no member named ‘GetInputName‘ in ‘Ort::Session‘

【代码】no member named ‘GetInputName‘ in ‘Ort::Session‘

2024-11-19 20:01:57 678

原创 android-ndk编译cpp文件

运行在 Android 系统上测试，直接编写一个可执行程序在手机上运行，比写一个 APP 是方便和快捷很多的。

2024-11-19 14:48:56 715

原创解决exception: CUDA error: device-side assert triggered

最后发现是init decode embedding module 的 vocab size 设置错误。此时traceback到的代码位置反而是误导，和这个没关系，需要手动print定位。从log看错误代码是cuda/Indexing.cu 说明是数组越界类的错误。

2024-11-18 14:46:39 507

原创解决 error: no matching function for call to ‘Ort::Session::Session(Ort::Env&, const wchar_t*的问题

我用的onnx runtime 版本是：onnxruntime-linux-x64-1.11.1。onnxruntime cpp部署出现这个问题，仔细往下翻发现有说详细原因。修改一下字符串类型为char，解决。

2024-11-14 19:49:29 613

原创 DiVAE

为什么我训练出来的DiVAE model生成的图片一是质量不稳定二是很容易出现白色的弥漫性大面积涂抹噪声。case1：这是效果比较好的，从左至右依次是epoch299 epoch399 预训练权重。case2:这是效果比较差的，最右是预训练权重。在CF fundus图像上，那更是稳定的差。

2024-11-08 16:28:24 241 1

原创 AI算法副业从开始到懈怠

像塑里面也有AI的功能，可以用他的“光影重塑”等模型，选择“主体风格化”/“背景风格化”来融合效果和人像，但这个的问题是，首先像塑的模型生成速度真的太慢了，一天不断的点生图也生不了几张，第二就是基模实在太差了，生图的质量和Midjourney完全没法比。刚好特效也比较短，讲故事，时间就比较长了，还生成不了这样自主生成，给个开头无限幻想下去，无限发展下去的连贯故事。虽然特效似的AI短剧热度较高，但我想还是有调整的，如何调整就看特效师手艺了，毕竟AI只能给个初稿，接下来怎么调，如何画龙点睛才是神韵。

2024-11-01 15:30:32 281

原创 AOI算法

就是指分析和处理图像的颜色，主要是通关图像的色彩分布和色彩特征来进行检测和判断，主要包括色彩抽取算法，波峰焊产检算法、红胶分析算法、孔洞缝隙算法等。定位，波峰焊中的插件变化大，常规的定位方式不适合插件的定位，所以CREST的定位算法，为特色的定位的方式。常用的一种有效的检测算法，几乎所有的检测都可用到该算法，该算法就是利用OK样本的累计学习和色彩对比来进行检测和判断。是指亮度缝隙和拥挤算法，该算法包括最大值算法、最小值算法、亮度跨度算法、均值算法和亮度抽取算法。对于空焊焊的检测采用的算法为“TOC 算法”

2024-10-30 16:56:22 3671

xcy8185083的博客