一、中文自然语言处理的完整机器处理流程 nlp笔记
中文自然语言处理获取语料:语言材料,文本集合。语料预处理:1.数据清洗:整理出感兴趣的内容2.分词:将文本全部进行分词,基于字符串匹配,统计的分词方法,规则的分词方法3.词性标注:形容词,动词,名词等4.去停用词:标点符号,人称,语气词等,由具体场景定特征工程1.词袋模型:不考虑出现的顺序,直接放一个集合,统计出现的次数,频率2.词向量 :将字、词语转换成向量矩阵的计...
原创
2019-04-10 10:04:37 ·
817 阅读 ·
0 评论