18、探索AI视觉与多语言翻译的前沿应用

最新推荐文章于 2025-11-04 10:00:00 发布

wind

最新推荐文章于 2025-11-04 10:00:00 发布

阅读量96

点赞数

CC 4.0 BY-SA版权

分类专栏：驾驭Azure AI的智慧未来文章标签： AI视觉多语言翻译 Azure机器学习

本文链接：https://blog.youkuaiyun.com/wind/article/details/151750977

驾驭Azure AI的智慧未来专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索AI视觉与多语言翻译的前沿应用

1. Seeing AI：移动应用中的Azure机器学习与认知服务

1.1 自定义与云模型

在计算机视觉领域，存在着各种各样的问题，因此Seeing AI应用采用了多种机器学习模型来应对不同场景，并做出不同的权衡。
- 本地模型与云模型的选择 ：
- 本地运行机器学习模型能提供实时结果，理想情况下响应时间少于100毫秒，最多不超过四分之一秒，能让用户获得自然的文本朗读体验。然而，图像描述使用的认知服务中的自定义视觉模型无法压缩到设备上运行，更不用说在Azure机器学习中训练的用于识别多种不同类型对象的数GB大小的模型了。虽然云服务的往返时间稍长，但能提供更高质量的结果。
- 若要实时读取标志或标签，可使用手机上运行的模型；若拍摄文档照片，花些时间将其发送到Azure利用云端的大型模型，能获得更准确的结果。
- 决定在本地还是云端运行模型有多种方式。Seeing AI让用户选择不同场景，而在其他应用中，可根据网络连接速度等因素决定，也可采用混合方法。若用户带宽有限、连接缓慢或离线，可使用本地模型，甚至先使用小型本地模型给出结果，待云端返回更精确信息后再补充。同时，要确保用户界面清晰说明质量或细节水平变化的原因，避免用户困惑。此外，还需考虑隐私问题，Seeing AI发送到Azure的图像会安全存储并保护用户隐私，但图像会离开设备，在受监管的行业中可能需仅使用本地模型，若向云服务发送内容，需通知用户。
- 模型的具体应用 ：
- 图像字幕生成使用认知服务视觉API，人脸API用于告知用户人物的年龄和性别。对象检测也使用认知服务，部