1.中文自然语言处理的一般流程
图片发自简书App
中文NLP一般流程
1. 获取语料
语料,是NLP任务所研究的内容
通常用一个文本集合作为语料库(Corpus)
来源:
已有语料
积累的文档
下载语料
搜狗语料、人民日报语料
抓取语料
2. 语料预处理
-
1.语料清洗
留下有用的,删掉噪音数据
常见的数据清洗方式 :
人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。
-
2.分词
将文本分成词语
常见的分词算法 :
基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法
-
3.词性标注
给词语打词类标签,如形容词、动词、名词等
在情感分析、知识推理等任务中需要
常见的词性标注方法
基于规则
基于统计
如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。
-
4.去停用词
去掉对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等
3.特征工程
把分词表示成计算机能够计算的类型,一般为向量
常用的表示模型 :
词袋模型(Bag of Word, BOW)
TF-IDF
词向量
One-hot Word2Vec
4. 特征选择