《NLP汉语自然语言处理原理与实践》第一章

本文探讨了NLP中的规则派和统计派方法,强调了深度学习在特征学习中的作用。文章指出,现代NLP系统通常包括语言解析、语义理解和语言生成三个模块,分别面临不同挑战。在中文分词方面,介绍了基于CRF和NShort的算法,特别是结巴分词器的精确、全和搜索引擎三种模式,并提供了用户字典的使用示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.基本知识

规则派还是统计派:

1.规则派:以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集----语言分析或生产系统,对自然语言进行分析处理。


2.统计派:以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律。统计派来源于多种数学基础,包括香浓的信息论、最优化方法、概率图模型、神经网络、深度学习等。她将语言事件富裕概率,作为其可信度,由此来判断某个语言现象是常见的还是罕见的。统计派的方法则偏重于对语料库中人们实际使用的普遍语言现象的统计表述。统计方法是语料库语言学研究的主要内容。


深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转换成更高层次的、更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。



NLP 全系列处理框架
名称 包含模块和下载地址 开发语言
哈工大的Ltp3.X 中文分词、词性标注、未登录词识别、句法分析、语义角色标注
网址:https://github.com/HIT-SCIR/ltp/releases
C++
Stanford NLP 中文分词、词性标注、未登录词识别、句法分析等
网址:http://nlp.stanford.edu/software/
java
FudanNLP 中文分词、句法分析等
网址:https://github.com/xpqiu/fnlp/
java
HaNLP 中文分词、句法分析等各类
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值