谷歌图像识别API向所有开发者开放

最新推荐文章于 2025-10-24 12:34:25 发布

转载最新推荐文章于 2025-10-24 12:34:25 发布 · 5.5k 阅读

杂~ 专栏收录该内容

4 篇文章

订阅专栏

搜索是我们很多人发现信息的主要渠道，但只能搜索文字显然是不够的，图像和视频肯定是搜索领域的下一个发展方向。当然，Google Photos 已经能够部分实现这个功能了，但很显然这还远远不够。

不过 Google 在周三宣布，他们提供了一个强大的图像识别工具，名为 Google Cloud Vision API。对于开发者们来说，这可能会是一个非常有用的工具，有了它，开发者们就可以让自己的软件、机器人知道图像上的信息了。

功能强大的图像检测工具

Google 在博客里公布了有关这个工具的详细情况。

首先，作为一个机器学习领域的技术，这个工具搭载的是我们之前给大家介绍过的智能机器学习系统 TensorFlow，Google 在上个月刚刚将这个系统免费开放给开发者们。

其次，它的主要功能是去学习并识别图片中的内容。

这个工具的运行原理并不复杂，它能够迅速将图片分到数千种大的类别当中去，比如：船、狮子、埃菲尔铁塔等等；然后侦测脸部相关的情绪，并识别图片上相关的文字。

在他们看来，Google Cloud Vision API 有以下几个吸引人的特性：

检测实体：Google Cloud Vision API 可以从数千种图片分类中检测出图片中的实体。除此之外，更吸引人的是，你还可以根据你自己的图片类别建立自己的元数据，这样，你就不必受制于 Google 为你设定的那数千个分类，而有了更符合你自己的图片分类。

字符识别：Google Cloud Vision API 所带的光学字符识别技术可以识别图片上的文字内容。其中支持的语言有很多种。

安全检测：Google Cloud Vision API 的安全检测功能可以识别出图片中不合适的内容，此功能搭载于 Google SafeSearch。它可以帮助用户避开那些令人不适的内容。

面部检测：Google Cloud Vision API 的面部识别技术可以检测到图片中的人像，也能具体识别出眼睛、嘴等具体的器官，而更重要的是，它还能检测到包括开心、悲伤等在内的 8 中情绪。为了保护用户的隐私，Google 还承诺不会在任何的 Google 服务器中储存有关面部的任何信息。

地标检测：Google Cloud Vision API 的地标检测功能可以识别出世界上著名的一些自然和人文建筑与景观，同时还会为你标出该地点的经纬度。

Logo 检测：Google Cloud Vision API 的 logo 监测功能可以检测出图片中著名品牌的 logo。

下面是一些范例：

Google 的一次突破

有了这个工具，机器识别图片的能力会大大加强。之前，你不能让计算机自动为你筛选照片；但现在，只需输入相应的「类别」，计算机就可以为你挑选出相应的图片。

而开发者们现在可以好好设计一下自己的软件和机器人等设备了。在不久的将来，也许当我们走进家门的时候，家中的机器人可以根据你脸上的表情选择它该说的问候语；而你在上网时也能够更精确地搜寻到想要的图片了。

当然，对 Google 来说，推出这个工具也很正常。在这个领域，亚马逊和微软都已经走了很远了。很多朋友可能还记得微软在之前推出的识别年龄和情绪的小工具，这些都出自于微软专注于人工智能领域的牛津计划。Google 当然也不能落后。在之前，Google 也推出过一些进行预测的 API 产品，但都功能有限，没有涉及到图像这方面，因此，这次的这个举动对 Google 来说也是一次大的突破。

这个 API 目前在 Google 云平台上提供一些有限的预览，不过在将来，Google 将会把这个功能添加进 Google 云储存中。这样可以使它的使用范围更广。

这个服务价格目前还不清楚，有兴趣的读者们可以在此（https://services.google.com/fb/forms/visionapialpha/）提交注册申请。

文章链接：http://www.fuliba.com/16895.html (转载时请注明本文出处及文章链接)

------------------------------------------------------------------

谷歌今天还公布了使用这一 API 的价格。开发者具体需要支付的费用与使用量密切相关。例如，标签识别的价格为每千张图片 2 美元，而基本的光学字符识别的价格为每千张图片 0.6 美元。

　　在测试期间，谷歌将对用户作出限制，即每月最多识别 2000 万张图片。谷歌表示，在预览期内，已有多家公司配置了这一 API。例如，Yik Yak 使用这一 API 去提取文字。

　　通过 Vision API，谷歌将与微软 Project Oxford等项目展开竞争。后者目前仍处于技术预览版阶段。Project Oxford 提供了用于计算机视觉、人脸识别，以及情绪分析的 API。