【未完成】《统计机器翻译》读书笔记:系列0,全书概述与个人总结

本书由PhilippKoehn撰写,介绍了统计机器翻译的基本原理和技术。内容涵盖语言学基础、概率论基础、词及短语翻译模型等,并探讨了翻译解码与前沿研究进展。

说明:本系列文章是本人在阅读统计机器翻译后所做的个人读书笔记,会按照每一章的顺序来按章详细叙述内容总结和习题解答。

系列0:全书概述与个人总结

本书是大牛Philipp Koehn的作品,他是开源项目Moses项目的领导者,具体可以去www.statmt.org/moses/查看,我也会在未来的半个月写一些有关Moses学习的博文。

本书分为三个部分:基础知识(介绍机器翻译需要语言学的基础、概率论的基础)、核心方法(基于词的翻译模型、基于短语的翻译模型、解码decoding)、前沿研究

 

在绪论部分,本书说了机器翻译的简史:

  Warren Weaver说过(大概意思)汉语文章其实是用一些奇怪编号编码的英文,解码过来就是翻译。

  早期人们提出了很多的方法,包括直接翻译、转换方法、中间语言方法等等。 ALPAC报告之后,各种研究都跪了....

历史就不多说,还是说本书内容

 

第二章 词、句子和语料

基本的文本处理步骤之一就是词例化(tokenization),比如说中文分词(我听说有个结巴分词托管在github上,有时间来补充地址)

后面叙述了齐夫定律,也就是词的序号r与使用频次f的乘积接近为一常量

 

写不下去了。。。准备每章写完详细总结再来写

 

转载于:https://www.cnblogs.com/hitnoah/p/3928130.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值