
自然语言处理
奋青的那些事
人生不只是眼前的苟且,还有诗与远方的田野
展开
-
NLP入门学习资料
引言自然语言处理(NLP)其实是一个涉猎技术很广的领域,因此,在打基础的过程中,建议从机器学习-深度学习-NLP的相关处理技术实践,这样的一个层次递进的学习过程。视频教程【注】下列课程基本是免费课程,浏览器打不开考虑代理VPN。《机器学习》链接:https://www.coursera.org/learn/machine-learning/home/welcome主讲:吴恩达课程简介:机器学习是一门让计算机在没有明确编程的情况下行动的科学。在过去的十年里,机器学习给我们带来了自动驾驶汽车、实原创 2020-12-07 09:37:10 · 442 阅读 · 0 评论 -
【Python+中文NLP】(三)实践篇 ——用户评论文本分类:从中文csv处理到分类
本文为博主心得笔记,如有不足之处,还望包容,代码部分见下方链接。中文CSV处理 1.Excel的中文表格文件,直接另存为.csv文件 2.解决各种csv用各种代码编辑器出现error的一劳永逸的方法:把.csv文件编码改为utf-8编码方式。 方法:首先,将.csv文件鼠标右击用记事本打开。 然后,文件-另存为。...原创 2018-10-19 10:26:43 · 2140 阅读 · 2 评论 -
【Python+中文NLP】(一) NLTK库
一、nltk库 nltk是一个python工具包, 用来处理与自然语言相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类等,是较为好用的现成工具。但是目前该工具包的分词模块,只支持英文分词,而不支持中文分词。1.安装nltk库在命令行输入:conda install nltk #anaconda环境pip install nltk ...原创 2019-04-03 11:05:07 · 19629 阅读 · 3 评论 -
【Python+中文NLP】(二) 中文分词工具包:jieba
前言 目前中文分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法,主要方法为:给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。 主要统计...原创 2019-04-03 11:07:55 · 2450 阅读 · 0 评论 -
【Python+中文NLP】知识图谱系列(1)——构建流程
目录前言领域知识图谱构建一、知识图谱基本定义1.1 三元组1.2 两个层次二、构建流程2.1 四个阶段2.2 六个环节1. 知识建模2. 知识存储3. 知识抽取4. 知识融合5. 知识计算6. 知识应用前言人工智能与行业结合的应用中,因行业领域的差异,存在大量数据模式不同,“领域知识图谱”以其更加符合实际应用需求的特性在工业领域得到了广泛应用。本文主要讲解特定领域知识图谱的构建流程。领域知识图谱构建一、知识图谱基本定义1.1 三元组知识图谱由多个“实体(Entity)-关系(Relationsh原创 2020-11-27 21:32:03 · 4400 阅读 · 0 评论