数学之美——阅读笔记（一）

最新推荐文章于 2024-09-06 12:15:10 发布

原创

最新推荐文章于 2024-09-06 12:15:10 发布 · 563 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #计算机 #数学之美

本文是数学之美系列的阅读笔记，重点探讨自然语言处理从规则方法转向统计方法的过程。介绍了统计语言模型，如二元模型，以及模型训练中的零概率问题和平滑方法，讨论了语料库的选择对模型性能的影响。

数学之美 —— 阅读笔记（一）

自然语言处理 —— 从规则到统计

对于计算机能否读懂自然语言，涉及到两个认知方面的问题：

计算机能否处理自然语言？
如果能，它处理的方法是否和人类一样？

而对于这两个问题，答案都是肯定的。

虽然字词可以被认为是有限且闭合的集合，而语言却不是，语言是无限的，因此语言必有语法无法覆盖到的存在。这就涉及两个考虑问题的方向，一个是从语言的角度，另一个是从语法的角度。经过长期的争论，最后的实践宣布了语言的正确性的胜利。

然而让计算机处理自然语言，并非计算机真正理解的自然语言的含义和表达的内容，这一切都归功于数学（准确地说是统计）

如果使用基于规则的方法，那么要覆盖哪怕 20% 的真实语句，文法规则的数量都是相当庞大的，这是其一；其次，在文法规则增加后会产生一些矛盾，因此会定义规则使用的特定环境等。
虽然计算机能理解现在的高级编程语言，然而这两者的计算量却不能同日而语。编程语言的文法是上下文无关的，其理解所耗费的时间复杂度为文本长度的平方；但是自然语言是上下文相关的，其时间复杂度为文本长度的六次方。

而从规则到统计的变革起源于 IBM 华生实验室对语音识别的改进，开始使用基于统计的方法。

统计语言模型

让计算机处理自然语言，一个基本问题就是为自然语言这种上下文相关的特征建立数学模型。

用数学的方法描述语言的规律

假定 $S$ 表示一个有意义的句子，由一连串特定顺序排列的词 $w_1,w_2,w_3,...,w_n$ 组成，这里 $n$ 为句子长度。现在我们想知道 $S$ 在文本中出现的可能性，即 $S$ 的概率 $P(S)$ 。不妨把这个概率展开：

P (S) = P (w 1, w 2, . . ., w n)

$P(S) = P(w_1,w_2,...,w_n)$

利用条件概率公式， $S$ 出现的概率等于每一个词出现的条件相乘，即：

P (w 1, w 2, . . ., w n) = P (w 1) P (w 2 | w 1) P (w 3 |

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。