图片OCR(Optical Character Recognition)

本文介绍了图片OCR的问题描述,包括滑动窗口技术在文字和行人检测中的应用。讨论了获取大量数据和人工数据的方法,以及如何通过天花板分析确定优化的重点环节。通过对OCR流程的瓶颈分析,指出文字检测模型的改进能带来显著的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Photo OCR问题描述

随着网络上的图片的数量越来越多,读取图片上的文字成为了一个日益增强的需求。

这里写图片描述

这里写图片描述

按照photo ocr问题的各个处理流程,我们可以大致为不同的环节分配不同数量的人去进行。

这里写图片描述

滑动窗口(Sliding Windows)

文字检测和行人检测的差别:

行人由于其矩形的长宽比例(ratio)大致比较固定(根据距离远近不同产生差别),因此可能较为容易检测。而文字则可能有各种各样的形状,相对比较难以确认其所在的区域。

这里写图片描述

如果要建立一个行人检测的系统,我们需要一些形状/像素相同的照片,分别是有行人的正例,和没有行人的反例。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值