未完全理解,摸索中...
当语料库预处理完毕后,才能进行翻译。
3种对象:
- 语料库:语料库信息须预处理后,被TreeTagger进行词性标注- 词典文件:词典中单词,编号并合并。
- 停用词:
1种功能:
- 对新词进行翻译:对获取的词语进行标注,更新词语编号信息;
在文档层面上,获取所有的 word-count & word-context 信息
合并语料库信息
在语料库水平上,提取相关的 word-count & word-context 信息,为后续的词典提取做准备
工具:
- TreeTagger :词性标注器,对句子中的词语进行词性标注
- straberry perl:windows下的perl程序,可编译后缀名为pl的脚本文件。
可比语料库 新词翻译 系统:
1. 将从语料库目录中导入的两种语言的语料库,分别进行预处理,
2. 将两种语言的停用词从语料库中删去,提高预处理效率。
3. 词典文件中,
语料库相关资料:
1. 语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
2. 可比语料库(comparable corpus)是由具有某些相同属性的文本构成,双语可比语料库是由具有某些相同属性的文本构成,双语可比语料库是由某些具有相似性的两种语言文本构成,比如,不同网站同一天、同一主题的中文和英文新闻,其中中文和英文均为原文,双语可比语料库的两种语言的文本,完全是不同撰稿人或记者用母语对事件的描述。可比语料库不存在平行语料库中译文受原文限制的缺点,极有希望从双语可比语料库中提取真正对应的双语词对。