多语言多媒体搜索与理解的形成性评估
1. 引言
Rosetta是一个用于多语言(阿拉伯语、中文、英语、西班牙语)多媒体(电视、网络)流内容的提取系统。它的迭代开发过程涉及到IBM T.J. Watson研究中心、马里兰大学、匹兹堡大学和卡内基梅隆大学的紧密合作。其面临的根本挑战是过程 - 系统协同设计,即引入新的技术能力时,有时需要新的工作流程来充分利用这些能力,而新的工作流程又有助于识别新的技术需求,从而形成一个创新的良性循环。
Rosetta集成了六项关键技术来支持搜索和理解,包括自动语音识别(ASR)、机器翻译(MT)、信息提取(IE)、信息检索(IR)、用户建模(UM)、问答(QA)的答案定位以及从结构化知识表示中生成摘要。该工作的重点在于集成架构(如ASR→MT→IR→IE→QA)的设计创新和流程创新,通过结合使用GALE技术来完成具有挑战性和现实意义的任务。
2. Rosetta系统
Rosetta系统由三个主要组件构成:
- 数据收集子系统 :从Dish Network捕获外语新闻广播,并每天对外国语言网站进行爬取。
- 数据处理管道 :基于IBM的非结构化信息管理架构(UIMA)平台开发,包含一系列数据处理组件(在UIMA术语中称为“注释器”),用于按顺序分析输入数据。主要的数据注释器包括ASR、MT和IE。
- Web应用程序 :由基于浏览器的终端用户客户端图形用户界面(GUI)和J2EE后端服务器Web应用程序组成。采用基于浏览器的客户端设计是为了实现最大程度的跨平台兼容性,广泛使用Web 2.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



