OCR
文章平均质量分 95
主要介绍计算机视觉OCR文字识别领域。
Asia-Lee
技术探索,分享实践与思考!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-OCR 部署、配置解析与测试完整指南
DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数)和DeepSeek3B-MoE-A570M 解码器(激活 570M 参数)构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上。原创 2025-11-10 19:00:40 · 2945 阅读 · 2 评论 -
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
DeepSeek-OCR 是 DeepSeek-AI 提出的用于探索视觉 2D 映射压缩长上下文可行性的视觉语言模型(VLM),由DeepEncoder(核心编码器,~380M 参数)和DeepSeek3B-MoE-A570M 解码器(激活 570M 参数)构成;其核心优势在于 DeepEncoder 通过串联窗口注意力(SAM-base)、16× 卷积压缩器与全局注意力(CLIP-large),实现高分辨率输入下的低激活内存与高压缩比,实验显示在 Fox 基准上。原创 2025-11-10 18:50:33 · 1534 阅读 · 0 评论 -
PP-OCRv5文本识别流程及原理解析
总的来说,PP-OCRv5通过其图像预处理→文本检测→文本方向分类→文本识别的四步流水线,构建了一个高效、精准且轻量的文字识别解决方案。其在手写体、多语言场景下的强劲表现,以及适合边缘部署的特性,使其成为文档数字化、教育、金融、智能交通等多个领域的理想选择。模块核心算法输入输出关键创新文本检测DBNet完整图像所有文本行的包围框可微分二值化(高效特征融合)、针对任意形状文本的优化方向分类轻量级CNN单个文本行图像文本方向类别极致的轻量化、将方向问题转化为多分类问题、依赖高质量合成数据。原创 2025-11-03 19:31:41 · 1713 阅读 · 0 评论
分享