视觉语言两开花！谷歌提出全新视觉语言桥梁

最新推荐文章于 2025-12-07 21:30:17 发布

原创最新推荐文章于 2025-12-07 21:30:17 发布 · 172 阅读

0 ·

CC 4.0 BY-SA版权

谷歌研究院提出一种新的图像标注方法——定位叙事，通过语音描述与鼠标轨迹相结合的方式，为图像中的每个单词提供密集的视觉基础，连接图像、语音、文字和鼠标轨迹四种模态数据。

视觉语言两开花！谷歌提出全新视觉语言桥梁

小老虎在动物园指着人类开心地说道。

对动物而言可能有些夸张，但是人类在进行事物的描述时，大多都是一边指着目标物体，一边进行语言的描述吗？
来自谷歌研究院的学者们以此为基础提出了“定位叙事”图像标注方法，在传统图像描述标注方法的基础上，巧妙的利用鼠标轨迹为每个单词都提供了较为密集的视觉基础，可以作为一个更为细粒度的图像监督信号，与此同时，定位叙事还连接了四种模态的数据，包括图像、语音描述、文字描述和鼠标轨迹信号，它们共同作用为视觉与语言联合增加了更多的可能性。本文已被ECCV2020 Spotlight收录。 1

研究动机

连接视觉和语言的一种方式是使用图像描述（Image Captioning），标注者被要求给每张指定的图像编辑一段话来描述图像中的内容，这种链接方式面对的是整个图像，是比较稀疏的。随着该领域研究的发展，研究者们对这种标注方式进行了改进，即对文字描述中较为关键的单词和图像中对应区域建立链接（visual grounding），这种方式相比传统的图像描述加入了更加显式的链接，但是它仍然是比较稀疏的，且由于标注付出的代价较大，所以很难关注到较为重要的区域。上图中分别为几种连接视觉和语言的标注数据集，（a）是最原始的图像描述，（b）和（c）进行了改进，对关键区域进行了bounding box的标记，（d）是本文提出的“定位叙事”（Localized Narratives）标注方法，下面进行详细介绍。 2

方法

本文提出了一种全新的多模态图像标注形式，称为“定位叙事”，下面举个例子：定位叙事要求标注者在描述图像的同时，加入自己的语音描述，还需要使用鼠标在对应图像区域内进行滑动。如上图所示，注释者一边说 "图中出现了一个女性"，一边将鼠标悬停在她的空间范围，从而为这个名词提供视觉链接。之后，将鼠标移动到气球上，说 "握住"。这样就为这个动作提供了直接的视觉基础。他还描述了 "晴朗的蓝天 "和 "浅蓝色牛仔裤 "等背景物体。由于语音与鼠标指针同步，就可以确定描述中每一个词的图像位置，这就为每个词提供了密集的视觉基础。定位叙事的核心做法是要求注释者在将鼠标悬停在被描述的区域上时，用他们的声音描述图像的内容。语音和鼠标位置信号都是有时间戳的，所以我们可以知道注释者在说每一个字的时候到底指的是什么。

标注提示

作者认为本文的图像描述方式更加接近人类的正常行为习惯，人类在进行事物的描述时，也是一边指着目标物体，一边进行语言的描述，这种方式可以使标注者更容易理解标注任务，要知道之前的方法会因为标注者没有彻底理解标注目的而带来一系列误差，但是同时也消耗了巨大的代价，除此之外，作者也提供了一个较为详细的注意事项表供标注者参考。

自动转写和手动转写

作者首先使用ASR算法[1]来对标注者的语音进行识别，这一步得到的描述文字有时间戳，并与鼠标轨迹进行同步，但是会因为所采用的语音识别算法的性能缺陷而带来一定的错误。为了修复这些错误，作者要求注解者在完成语音描述后手动记录下他们自己的描述文字，但是手动记录的文字描述又缺少时间戳的标注。所以我们还需要对二者进行对齐，来得到既带有时间戳信号同时也是非常精确的图像描述信息。

道翰天琼认知智能未来机器人接口API简介介绍

认知智能是计算机科学的一个分支科学，是智能科学发展的高级阶段，它以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口，以跨学科理论体系为指导，从而形成的新一代理论、技术及应用系统的技术科学。认知智能的核心研究范畴包括：1.宇宙、信息、大脑三者关系；2.人类大脑结构、功能、机制；3.哲学体系、文科体系、理科体系；4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。认知智能四步走：1.认知宇宙世界。支撑理论体系有三体（宇宙、信息、大脑）论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系；2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑，是全球第一个认知智能机器人大脑。具有突破性，创新性，领航性。是新一代智能认知智能的最好的产品支撑。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机器人。认知智能机器人是新时代的产物，是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比，优势非常明显。智能度高，客户粘性大，客户满意度高，易于推广和传播等核心特点。依托认知智能机器人平台提供的机器人大脑服务，可以赋能各个行业，各个领域的智能设备，各类需要人机互动的领域等。认知智能机器人平台网址：www.weilaitec.com，www.citec.top。欢迎注册使用，走进更智能机器人世界。
认知智能和人工智能的优劣势对比主要可以分为四大方面：第一：时代发展不同。人工智能是智能时代发展的第二个阶段，认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。第二：基础理论体系不同。人工智能的基础理论体系以数学为基础，以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系，心理学体系，逻辑学体系，语言学体系，符号学体系，数学体系等学科。其基础理论体系更加具有创新性，突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系，还包含三体论（宇宙，信息，大脑三者关系），融智学，和HNC等。第三：技术体系不同。人工智能的核心技术体系主要是算法，机器学习，深度学习，知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系，认知维度，类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系，只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含，感知层，记忆层，学习层，理解层，认知层，逻辑层，情感层，沟通层，意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上，人工智能和认知智能基本上没有太多的可比性。第四：智能度成本等方面的不同：人工智能产品的综合智能程度，普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间，更省人力和资金。优势非常多。具体请看下列的逐项对比。

道翰天琼CiGril机器人API

道翰天琼CiGril认知智能机器人API用户需要按步骤获取基本信息：

在平台注册账号
登录平台，进入后台管理页面，创建应用，然后查看应用，查看应用相关信息。
在应用信息页面，找到appid,appkey秘钥等信息，然后写接口代码接入机器人应用。

开始接入

请求地址：http://www.weilaitec.com/cigirlrobot.cgr

请求方式：post

请求参数：

参数	类型	默认值	描述
userid	String	无	平台注册账号
appid	String	无	平台创建的应用id
key	String	无	平台应用生成的秘钥
msg	String	""	用户端消息内容
ip	String	""	客户端ip要求唯一性,无ip等可以用QQ账号，微信账号，手机MAC地址等代替。

接口连接示例：http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552

注意事项：参数名称都要小写，五个参数不能遗漏，参数名称都要写对，且各个参数的值不能为空字符串。否则无法请求成功。userid,appid,key三个参数要到平台注册登录创建应用之后，然后查看应用详情就可以看到。userid就是平台注册账号。

示例代码JAVA：

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class apitest {

   /**
   * Get请求，获得返回数据
   * @param urlStr
   * @return
   */
   private static String opUrl(String urlStr)
   {
       URL url = null;
       HttpURLConnection conn = null;
       InputStream is = null;
       ByteArrayOutputStream baos = null;
       try
       {
           url = new URL(urlStr);
           conn = (HttpURLConnection) url.openConnection();
           conn.setReadTimeout(5 * 10000);
           conn.setConnectTimeout(5 * 10000);
           conn.setRequestMethod("POST");
           if (conn.getResponseCode() == 200)
           {
               is = conn.getInputStream();
               baos = new ByteArrayOutputStream();
               int len = -1;
               byte[] buf = new byte[128];

               while ((len = is.read(buf)) != -1)
               {
                   baos.write(buf, 0, len);
               }
               baos.flush();
               String result = baos.toString();
               return result;
           } else
           {
               throw new Exception("服务器连接错误！");
           }

       } catch (Exception e)
       {
           e.printStackTrace();
       } finally
       {
           try
           {
               if (is != null)
                   is.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }

           try
           {
               if (baos != null)
                   baos.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }
           conn.disconnect();
       }
       return "";
   }


   public static void main(String args []){
            //msg参数就是传输过去的对话内容。
            System.out.println(opUrl("http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552"));

   }
}