图片OCR（Optical Character Recognition）

最新推荐文章于 2025-05-21 10:30:45 发布

蓝色枫魂

最新推荐文章于 2025-05-21 10:30:45 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： Data Mining & Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_32690999/article/details/78650527

本文介绍了图片OCR的问题描述，包括滑动窗口技术在文字和行人检测中的应用。讨论了获取大量数据和人工数据的方法，以及如何通过天花板分析确定优化的重点环节。通过对OCR流程的瓶颈分析，指出文字检测模型的改进能带来显著的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Photo OCR问题描述
滑动窗口Sliding Windows
获得大量数据和人工数据Getting Logs of Data and Artificial Data
瓶颈分析需要攻克的环节Ceiling AnalysisWhat Part of the Pipeline to Work on Next

Photo OCR问题描述

随着网络上的图片的数量越来越多，读取图片上的文字成为了一个日益增强的需求。

这里写图片描述

这里写图片描述

按照photo ocr问题的各个处理流程，我们可以大致为不同的环节分配不同数量的人去进行。

这里写图片描述

滑动窗口（Sliding Windows）

文字检测和行人检测的差别：

行人由于其矩形的长宽比例（ratio）大致比较固定（根据距离远近不同产生差别），因此可能较为容易检测。而文字则可能有各种各样的形状，相对比较难以确认其所在的区域。

这里写图片描述

如果要建立一个行人检测的系统，我们需要一些形状/像素相同的照片，分别是有行人的正例，和没有行人的反例。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。