专利领域的平行性、相似性分析及查询优化
1. 平行性与领域相似性分析
在统计机器翻译中,平行语料库的可用性至关重要。为了获取大量平行数据,采用了两种方法从专利语料库中进行提取:
- 直接方法:对齐翻译后的文档部分,如标题、摘要和权利要求。
- 间接方法:通过专利家族 ID 连接找到整个文档的近似翻译。
1.1 领域相关性度量
为了分析不同领域之间的相关性,进行了一系列的度量和实验。
- A - 距离 :通过计算 300k IPC 训练集的成对 A - 距离(见表 8),可以初步了解不同领域之间的差异。
| | A | B | C | D | E | F | G | H |
| — | — | — | — | — | — | — | — | — |
| A | 0 | 0.1303 | 0.1317 | 0.1311 | 0.188 | 0.186 | 0.164 | 0.1906 |
| B | 0.1302 | 0 | 0.2388 | 0.1242 | 0.0974 | 0.0875 | 0.1417 | 0.1514 |
| C | 0.1317 | 0.2388 | 0 | 0.1992 | 0.311 | 0.3068 | 0.2506 | 0.2825 |
| D | 0.1311 | 0.1242 | 0.1992 | 0 | 0.1811 | 0.1808 | 0.1876 | 0.2
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



