一.基本知识
规则派还是统计派:
1.规则派:以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集----语言分析或生产系统,对自然语言进行分析处理。
2.统计派:以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律。统计派来源于多种数学基础,包括香浓的信息论、最优化方法、概率图模型、神经网络、深度学习等。她将语言事件富裕概率,作为其可信度,由此来判断某个语言现象是常见的还是罕见的。统计派的方法则偏重于对语料库中人们实际使用的普遍语言现象的统计表述。统计方法是语料库语言学研究的主要内容。
深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转换成更高层次的、更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。
名称 | 包含模块和下载地址 | 开发语言 |
哈工大的Ltp3.X | 中文分词、词性标注、未登录词识别、句法分析、语义角色标注 网址:https://github.com/HIT-SCIR/ltp/releases |
C++ |
Stanford NLP | 中文分词、词性标注、未登录词识别、句法分析等 网址:http://nlp.stanford.edu/software/ |
java |
FudanNLP | 中文分词、句法分析等 网址:https://github.com/xpqiu/fnlp/ |
java |
HaNLP | 中文分词、句法分析等各类 |