专利文本平行性与领域相似性分析
1. 研究背景与目标
专利翻译是一个活跃的研究领域,受CLEF和NTCIR等基准测试研讨会的推动。不同专利在词汇和风格上存在差异,这导致了不同的子领域,可视为多任务翻译中的任务。本研究聚焦于语料库的构建与描述,将专利翻译作为相似性分析的工具,旨在探究领域间的异同,为专利翻译及相关任务提供资源。
2. 相关工作
- NTCIR :针对日英和中英专利文档开展专利翻译任务,数据约200万句对,通过基于长度的对齐得分和基于字典的单词翻译得分筛选。实验表明,训练和测试部分一致时机器翻译结果最佳,整合所有部分数据训练效果更佳。
- MAREC数据集 :是CLEF - IP赛道专利检索数据的超集,被用于独立的专利翻译。提取过程结合候选句子对齐和基于单词的翻译过滤,如使用Gargantua进行句子对齐,GIZA++进行单词对齐。跨IPC领域的机器翻译实验显示,整合所有部分的最大数据集效果最佳,尤其是语言建模方面,但提取的句子平行数据未公开,且仅涉及摘要和权利要求部分。
3. 专利文本的结构与主题维度
- 主题维度 :由国际专利分类(IPC)确定,将专利分为8个顶级部分、120个类别、600个子类别,直至70,000个子组。具体顶级部分如下表所示:
| 代码 | 类别 |
| ---- | ---- |
| A | 人类必需品 |
| B | 执行操作、运输 |
| C | 化学、冶金 |
|
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



