规则和统计(下)

本文回顾了统计方法在自然语言处理(NLP)领域的兴起和发展历程。从IBM于1988年提出的基于统计的机器翻译方法开始,到21世纪初基于统计的方法在机器翻译等领域取得突破性进展,逐步取代了基于规则的传统方法。文章还讨论了计算能力和数据量的增长如何促进了这一转变。

    1988年,IBM的彼得·布朗等人提出了基于统计的机器翻译方法,框架是对的,但是效果很差,因为当时没有足够的统计数据,也没有足够强的模型来解决不同语言语序颠倒的问题。在很长一段时间里,传统方法支持者攻击对方的武器就是,基于统计的方法只能处理浅层的nlp问题,无法进行深层次的研究。

    从20世纪80年代末到现在,随着计算能力提高和数据量的爆发,过去看似不可能通过统计模型完成的任务,渐渐变得可能了。到20世纪90年代末期,大家发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。2005年以后,随着Google基于统计方法翻译系统全面超过基于规则方法的SysTran翻译,基于规则学派固守的最后一个堡垒被拔掉了。nlp的应用在过去30年里也发生了巨大的变化,比如对自动问答的需求在很大程度上被网页搜索和数据挖掘替代了。而新的应用越来越依靠数据的作用和浅层的nlp的工作,这在客观上大大加速了nlp研究从基于规则的方法到基于统计的方法的转变。今天,几乎不再有科学家自称是传统的基于规则方法的捍卫者。而nlp的研究也从单纯的句法分析和语义理解,变成了非常贴近实际应用的机器翻译、语言识别、数据挖掘和知识的获取等。

    基于统计的nlp方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上nlp又和语言的初衷—通信联系在一起了。可惜科学家花了几十年才认识到这个联系。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值