最近参加了一个sem-eval 2013的task 8:Cross-lingual Textual Entailment for Content Synchronization.打算研究生毕设就做这个了。
想到的一个方法就是先把非英语翻译为英语,再做常规的文本推理。无奈google的翻译API竟然关闭了,但你网页总不会关闭吧?于是找到了前人做好的工具:Google翻译post提交无长度限制的在线翻译例子,原理是直接抽取网页。可以支持长文本,这样就可以一次翻译多句话了。
但是上述的工具存在一个缺陷,翻译出来的结果中含有HTML转义字符,如"&","""。解决方法见我另一篇博客:将HTML中的特殊字符转化为可显示的字符。
附上国家语言简称表:
| Language | Language code |
|---|---|
| Afrikaans | af |
| Albanian | sq |
| Arabic | ar |
| Belarusian | be |
| Bulgarian | bg |
| Catalan | ca |
| Chinese Simplified | zh-CN |
| Chinese Traditional | zh-TW |
| Croatian | hr |
| Czech | cs |
| Danish | da |
| Dutch | nl |
| English | en |
| Estonian | et |
| Filipino | tl |
| Finnish | fi |
| French | fr |
| Galician | gl |
| German | de |
| Greek | el |
| Haitian Creole | ht |
| Hebrew | iw |
| Hindi | hi |
| Hungarian | hu |
| Icelandic | is |
| Indonesian | id |
| Irish | ga |
| Italian | it |
| Japanese | ja |
| Latvian | lv |
| Lithuanian | lt |
| Macedonian | mk |
| Malay | ms |
| Maltese | mt |
| Norwegian | no |
| Persian | fa |
| Polish | pl |
| Portuguese | pt |
| Romanian | ro |
| Russian | ru |
| Serbian | sr |
| Slovak | sk |
| Slovenian | sl |
| Spanish | es |
| Swahili | sw |
| Swedish | sv |
| Thai | th |
| Turkish | tr |
| Ukrainian | uk |
| Vietnamese | vi |
| Welsh | cy |
| Yiddish | yi |
PS:几近荒芜的空间,太久没有干正事了……

本文介绍了一种解决跨语言文本蕴含问题的方法:先将非英语文本翻译成英语,然后进行常规文本推理。文章提供了使用Google翻译API进行无长度限制翻译的工具示例,并讨论了解决翻译结果中HTML转义字符的问题。
979

被折叠的 条评论
为什么被折叠?



