在电气工程图纸识别场景下,YOLO 依然是必不可少的。
虽然 MLLM 很强,但它们在“检测(Detection)”这项具体任务上,存在几个致命的短板,而这恰恰是 YOLO 的强项。以下是 5 个必须保留 YOLO 的硬核理由:
1. “数不清”与“看不见” (Recall & Density)
电气图纸通常非常密集。一张主接线图中可能包含几十个甚至上百个图元(如密密麻麻的端子排、继电器触点)。
- MLLM 的弱点: 大模型通常有“偷懒”的毛病。如果你让它“找出图中所有的端子”,它往往只能找出前 5-10 个,然后就停止了,或者漏掉角落里的小目标。它很难处理高密度小目标。
- YOLO 的强项: YOLO 是机械式的。只要特征匹配,哪怕图里有 500 个端子,它也能一个不漏地全部框出来。对于工程统计(如生成 BOM 表)来说,漏检是不可接受的。
2. 幻觉问题 (Hallucination)
- MLLM 的弱点: 大模型是基于概率生成的。当图纸模糊或线条复杂时,它可能会脑补出一个不存在的开关,或者把“常开触点”看成“常闭触点”,因为它在根据上下文“猜”这里应该有个什么东西。
- YOLO 的强项: YOLO 是基于像素特征的。它只看图像纹理,不进行复杂的语义联想。虽然它也会误检,但它的错误通常是可预测、可调试的(比如把污渍看成点),可以通过调整置信度阈值来控制。
3. 空间坐标的精度 (Localization Precision)
电气图纸的后续处理(如分析连线关系)需要极高的坐标精度。你需要知道电线到底连在图元的哪个引脚上。
- MLLM 的弱点: 目前的大模型(即使是 GPT-4o)输出的 Bounding Box 坐标通常是粗略的。它可能给你一个大概的范围,误差可能在几十个像素,这会导致你无法判断线路的精确连接点。
- YOLO 的强项: YOLO 是专门为回归坐标训练的,它可以实现像素级的边缘贴合。这对于后续判断“线是否连在设备上”至关重要。
4. 领域特异性 (Domain Specificity)
电气符号标准繁多(国标 GB、IEC、ANSI),甚至不同设计院有自己的“方言”符号。
- MLLM 的弱点: 通用大模型见过很多通用的电气符号,但如果你遇到一个非标的、冷门的、或者手绘风格的符号,大模型大概率不认识,或者把它认成别的。你很难去“微调”一个千亿参数的大模型来记住这几个特殊符号。
- YOLO 的强项: 极易定制。 你只需要标注 20-50 个这种特殊符号的样本,训练几分钟,YOLO 就能变成这个符号的专家。它是“可塑性”最强的工具。
5. 成本与速度 (Cost & Latency)
- MLLM 的弱点: 推理成本高,速度慢。处理一张高分辨率大图,可能需要切片多次调用 API,耗时数秒甚至更久,且 Token 费用昂贵。
- YOLO 的强项: 可以在本地 CPU 或低端 GPU 上毫秒级运行。对于 50 份甚至未来 5000 份图纸,YOLO 是免费且瞬时的。
直观对比测试
你可以做一个简单的实验来验证我的说法:
实验: 找一张包含 20 个密集端子排的电气图局部。
-
问 MLLM (如 GPT-4V/Qwen-VL):
"请输出图中所有端子排的坐标,格式为 JSON。"
- 预期结果: 它可能会给你 5-8 个坐标,剩下的忽略,且坐标框可能画得很大,把相邻的线都框进去了。
-
看 YOLO (训练良好的):
- 预期结果: 瞬间弹出 20 个框,每个框紧贴端子边缘。
结论:最佳实践架构
不要做“二选一”,要做“组合拳”。
- YOLO 是“眼睛” (Eye): 负责哪里有东西、有多少个、精确位置在哪。它不需要太聪明,只需要眼尖、不漏看。
- MLLM 是“大脑” (Brain): 负责这是什么意思。当 YOLO 切割出一个复杂的组合符号,或者需要结合旁边的文字(如 "备用")来判断功能时,再交给 MLLM 去理解。
针对你目前的 50 份 PDF:
必须用 YOLO。因为你需要把图纸里的成百上千个元件结构化(变成数据库里的行)。单纯靠 MLLM “看图说话”,你得到的只能是一段描述性的文本,而不是工程可用的数据。

被折叠的 条评论
为什么被折叠?



