统计自然语言处理基础-笔记-绪论

本文探讨了理性主义与经验主义对于人类语言理解的不同观点。理性主义者认为语言规则天然存在于人脑之中,而经验主义者则强调人脑的学习能力,能够通过归纳推理从已知的语言结构推导出新的结构。此外,文章还讨论了自然语言处理技术的发展,特别是搜索引擎如何基于词语进行简单理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

理性主义者和经验主义者都认同人脑中存在一种先验的结构,区别在于经验主义者认为人脑具有联想、概括的能力,这种能力能从感官输入中学习到语言结构。

个人的理解是这样的,理性主义者认为人脑就天然蕴含了一种语言规则结构,所以人可以识别语言,人脑就好像是一个句法分析器;经验主义者认为人脑的确有语言规则结构,但这并不够,关键是人脑的一种归纳推理能力,根据所见所闻,能从一种结构推理扩展出另一种结构,即人脑具有学习能力。举个例子,假如人脑天然就知道吃和食事物有一种关联、吃喝拉有一种对立的关系、而拉又和屎有一种关联,于是人脑可以归纳联想出另一种关系——“吃屎”。第一个说出“吃屎”的人应该不是第一个想到也不是第一次想到就说出来的人,应该是多次的外界刺激大脑,而此人思维又比较活跃,偶然的一次机会,“吃屎”就诞生了。第一次听说“吃屎”的人,即便不考虑对方说这个词的上下文,也可以理解出这并不是一个好词,原因也是“吃——拉——屎”的关系,更何况考虑到说话人的上下文了。相对理解“吃屎”,发明“吃屎”要难得多,理解“吃屎”就好比在“吃”和“屎”之间找到一条最短路径,而这个图很小;发明“吃屎”也是一条最短路径,只不过这个图很大很大。

认知是随机的,文中有一个例子,英语的while很早以前是time的意思,后来逐渐演变成了和时间相关的连词。为什么?估计是这样的,时间在语言中太常出现,语言的进化导致需要一个关于时间的连词。为什么不是time?估计是while的发音更方便一些吧!某人第一次听到对方把while当做连词用,根据上下文马上理解了意思,并且觉得和合理。逐渐,while就流行起来了。

自然语言处理广泛受到关注是因为互联网的发展,尤其是搜索引擎的推动。搜索引擎对语言的理解比较低级,主要是基于词语的理解,理解不了句子,更不用说篇章了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值