自然语言处理中的统计语言模型:原理、应用与挑战
1. 自然语言处理的转变与统计语言模型的兴起
如今,传统的基于规则的自然语言处理方法已无人问津。自然语言处理的重点也从简单的句法分析和语义理解,转向了机器翻译、语音识别、数据挖掘、知识获取等实际应用。
从数学角度看,自然语言处理等同于通信模型。通信模型是信息编码语言与自然语言处理之间缺失的一环,科学家们花了数十年才意识到这一点。
自然语言是一种用于表达和传递信息的上下文编码。为了让计算机理解自然语言,数学模型首先要捕捉上下文信息。统计语言模型就是这样一种模型,它也是自然语言处理中最常用的模型,是当今所有自然语言处理的基础,应用场景包括机器翻译、语音识别、手写识别、自动纠错和文献查询等。
2. 用数学描述语言
统计语言模型最初是为了解决语音识别问题而创建的。在语音识别中,计算机需要判断一个单词序列是否能构成一个可理解的句子,如果可以,则将结果返回给用户。
例如,有这样一个句子:“The Fed Chair Ben Bernanke told media yesterday that $700B bailout funds would be lended to hundreds of banks, insurance companies and auto - makers.” 这个句子读起来很流畅,意思也很清晰。但如果改变一些单词的顺序,如 “Ben Bernanke Federal Reserve Chairman of $700 billion told the media yesterday that would be lent to banks, insurance
超级会员免费看
订阅专栏 解锁全文
1989

被折叠的 条评论
为什么被折叠?



