
NLP技术
文章平均质量分 90
季建豪
这个作者很懒,什么都没留下…
展开
-
NLP系列——文本向量化
NLP系列——文本向量化主要介绍word2vec词向量算法和doc2vec文本向量算法。文本表示是自然语言处理中的基础工作,直接影响到整个自然语言处理系统的性能,而文本向量化是文本表示的一种重要方式。文本向量化根据对象的差异分为:word2vec算法(词向量化)doc2vec算法(文章向量化)str2vec算法(句子向量化)文章目录NLP系列——文本向量化一、word2vec算法1.1 词袋模型1.2 词空间模型1.3 神经网络语言模型(Neural Network Language Mo原创 2021-01-31 00:26:03 · 1428 阅读 · 0 评论 -
NLP——语料库信息提取和处理方法
NLP——语料库信息提取和处理方法本文以搜狗新闻语料为例,记录文本语料的收集、读取、处理等一整套的方法,主要是为了排排坑。文章目录NLP——语料库信息提取和处理方法前言一、语料下载二、文件读取1. 文件编码嗅探2. 文件读取3. 文件转码三、文本内容提取前言文本语料的资源在网上有很多,主要的资源在这篇文章中的语料库部分有介绍和连接。语料的收集处理主要包括以下环节(尽可能详尽):1)语料下载,在各个资源网站上找到对应分类的语料资源;2)文件读取:文件的读取最要注意的一点就是编码形式,比如这原创 2021-01-26 11:00:59 · 5982 阅读 · 0 评论 -
NLP系列——NLP基础
NLP系列——NLP基础NLP基础部分包括基础术语、知识结构、语料库等部分内容。文章目录NLP系列——NLP基础一、基础术语1.1 分词(segment)1.2 词性标注(part-of-speach tagging)1.3 命名实体识别(NER,Named Entity Recognition)1.4 句法分析(syntax parsing)1.5 指代消解(anaphora resolution)1.6 情感识别(emotion recognition)1.7 纠错(correction)1.8原创 2021-01-26 10:15:10 · 904 阅读 · 0 评论 -
NLP——关键词提取
NLP——关键词提取文章目录NLP——关键词提取前言一、TF-IDF算法1. 基本原理2. 算法改进二、TextRank算法1. 基本原理2. PageRank算法3. TextRank算法4. TextRank算法在关键词提取的应用三、总结前言关键词提取分为有监督和无监督两种方法:有监督:通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配度,以类似打标签的方式达到关键词提取的效果。优点:能够获得较高的精度;缺点:需要人工建立和维护含有大批量标注数原创 2021-01-23 21:20:48 · 1344 阅读 · 0 评论