78、多语言多媒体搜索与理解的形成性评估

多语言多媒体搜索与理解的形成性评估

1. 引言

Rosetta是一个用于多语言(阿拉伯语、中文、英语、西班牙语)多媒体(电视、网络)流内容的提取系统。它的迭代开发过程涉及到IBM T.J. Watson研究中心、马里兰大学、匹兹堡大学和卡内基梅隆大学的紧密合作。其面临的根本挑战是过程 - 系统协同设计,即引入新的技术能力时,有时需要新的工作流程来充分利用这些能力,而新的工作流程又有助于识别新的技术需求,从而形成一个创新的良性循环。

Rosetta集成了六项关键技术来支持搜索和理解,包括自动语音识别(ASR)、机器翻译(MT)、信息提取(IE)、信息检索(IR)、用户建模(UM)、问答(QA)的答案定位以及从结构化知识表示中生成摘要。该工作的重点在于集成架构(如ASR→MT→IR→IE→QA)的设计创新和流程创新,通过结合使用GALE技术来完成具有挑战性和现实意义的任务。

2. Rosetta系统

Rosetta系统由三个主要组件构成:
- 数据收集子系统 :从Dish Network捕获外语新闻广播,并每天对外国语言网站进行爬取。
- 数据处理管道 :基于IBM的非结构化信息管理架构(UIMA)平台开发,包含一系列数据处理组件(在UIMA术语中称为“注释器”),用于按顺序分析输入数据。主要的数据注释器包括ASR、MT和IE。
- Web应用程序 :由基于浏览器的终端用户客户端图形用户界面(GUI)和J2EE后端服务器Web应用程序组成。采用基于浏览器的客户端设计是为了实现最大程度的跨平台兼容性,广泛使用Web 2.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值