跨语言信息检索与翻译技术解析
1. 系统链接处理与访问
在信息检索系统中,为保证浏览的连续性与系统的关联性,会将系统的 URL 附加到那些链接到 HTML 文件或文本文件的 URL 上。而对于其他 URL,像内联图像和外部 MIME 对象,会将其转换为绝对 URL,这样非文本信息就能从原始服务器获取。该实验系统可通过以下 URL 访问:http://mtir.csie.ntu.edu.tw 。
2. 查询翻译
2.1 查询翻译方法
近期针对跨语言信息检索(CLIR)提出了多种方法,主要的查询翻译方法有以下四种:
1. 基于词典的方法
2. 基于语料库的方法
3. 混合方法(结合基于词典和基于语料库的方法)
4. 基于机器翻译的方法
由于缺乏大规模的中英平行语料库,本系统采用基于词典的方法。中文 - 英文 CLIR 的查询翻译主要包括三个步骤:
1. 分词 :识别输入的中文字符流的词边界。
2. 查询翻译 :使用双语词典构建翻译后的英文查询,利用单语语料库进行翻译消歧。
3. 单语信息检索 :使用翻译后的查询搜索相关文档。
在设计中,分词和查询翻译使用相同的双语词典,该词典约有 90,000 个词条。中文分词采用最长匹配法,即从左到右搜索与最长中文字符序列对应的词典条目。识别中文术语后,系统从双语词典中为每个查询术语选择一些翻译等价物。查询术语可以在两个不同的词典翻译级别进行翻译:词级(逐词)和短语级翻译。那些在转移词典中缺失的术语将