一、什么是NLP
自然语言处理,此领域探讨如何处理及运用自然语言,自然语言认知则是让电脑懂人类的语言。
自然语言处理的主要范畴:文本分析、信息检索、词性标注、问答系统等
二、NLP技术
词法分析
语法分析
语义分析
1、词法分析
分词技术:如在文章中切分词语
词性标注:
即确定一段话中每个词是副词、名词、形容词或者其他词性的过程。
命名实体识别:
又称“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
一般来说,命名实体识别的任务就是识别出待处理文本中的三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
步骤:
(1)实体边界识别(类似分词)
(2)确定实体类别(英文实体,中文实体)
方法
(1)基于规