云视觉API:评估、应用与优化
1. 准确性评估
在市场上,众多服务提供商都宣称自己是行业领先者,那么如何判断谁才是真正的最佳选择呢?这就需要通用的指标,在外部数据集上对这些服务进行比较。
为了构建可重现的基准,我们使用COCO - Text数据集来评估文本提取质量。该数据集是MS COCO数据集的子集,包含63,686张日常生活场景中的图像,如横幅、路牌、公交车上的数字、杂货店的价签等。这种真实场景的图像使得该数据集的测试难度较大。我们采用单词错误率(WER)作为基准指标,为简化操作,只关注单词是否存在,而忽略其位置。
在COCO - Text验证数据集中,我们选取所有包含一个或多个清晰文本实例(无中断的完整文本序列)且文本长度超过一个字符的图像,然后将这些图像发送到各种云视觉API进行测试。结果显示,考虑到数据集的难度,这些结果非常出色。早期的大多数先进文本提取工具的准确率很难超过10%,这充分展示了深度学习的强大力量。而且,在手动测试的图像子集中,我们还发现一些API的性能逐年提升,这也是基于云的API的一大优势。
需要注意的是,分析结果很大程度上取决于所选的数据集和指标。不同的数据集(受具体用例影响)和最低质量指标会导致结果有所不同。此外,服务提供商也在不断改进服务,因此这些结果并非一成不变,而是会随着时间不断提升。所有实验代码都托管在GitHub上(http://PracticalDeepLearning.ai ),可以使用这些脚本在任何数据集上重现实验结果。
2. 偏差问题
偏差可能会潜入数据集,并对现实生活产生严重影响,云视觉API也不例外。
MIT媒体实验室的研究员Joy Buol
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



