Vision框架识别技术详解
1. 图像文本识别概述
在图像分析中,速度和准确性往往难以兼得。有时候分析速度较快,但结果却不尽如人意。不过,对于一些应用程序来说,速度至关重要,为了速度牺牲一些准确性也是可以接受的,比如实时相机翻译或实时滤镜拍照等场景,就需要快速处理。
Vision框架自首次迭代以来,在图像文本检测方面不断改进。在iOS 14上,文本检测有两种方式,由请求中指定的 recognitionLevel 值决定,分别是 .fast 和 .accurate ,它们的区别如下:
| 识别级别 | 原理 | 优点 | 缺点 |
| ---- | ---- | ---- | ---- |
| .fast | 使用字符识别,逐字符检测边界框内的文本 | 针对实时识别进行了优化,内存占用比 .accurate 小 | 处理旋转文本或不同字体的效果不如 .accurate 方法 |
| .accurate | 使用神经网络检测字符串和整行,然后识别单词和句子 | 可以检测或纠正难以提取的某些字符的识别结果,更准确 | 比 .fast 耗时更长 |
在初始识别阶段完成后,两种方式的结果都会传递给传统的自然语言处理器进行语言处理,最终得到识别结果,且整个过程都在设备上完成。
当需要快速读取代码或条形码,或者用户交互性是关键因素,希望文本检测能快速响应时,使用 .fast
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



