
NLP入门笔记
文章平均质量分 79
骑猪流浪江湖
一个有追求的三本大学在读本科生,秃头中年油腻男团预备团员
展开
-
深度学习与自然语言处理
写在前面本文是笔者学习《自然语言处理入门》(何晗著)的最后一篇学习笔记。在学习本书的过程中,我初步走进了NLP的世界,也尝试了不同的学习、笔记方法。最开始是采用手写笔记的形式,后来决定使用博客的方式做笔记。因此博客上的内容只涉及该数目的后面几章。本文是该书读书笔记的最后一篇。一、传统方法的局限通过前面的学习,我学习到了隐马尔可夫模型、感知机、条件随机场、朴素贝叶斯模型、支持向量机模型等传统机器学习模型。同时,为了将这些机器学习模型应用于NLP,我们掌握了特征模板、TF-IDF、词袋向量等特征提取方法。原创 2021-03-10 18:47:42 · 1676 阅读 · 1 评论 -
NLP笔记之依存句法分析
一、语法分析语法分析是自然语言处理中一个重要的任务,其目的是分析句子的语法结构并将其表示为容易理解的结构。语法分析是所有工具性NLP任务中较为高级、较为复杂的一种任务。二、短语结构树短语结构语法是分析句子如何产生的方法。由于语言满足复合性原理,通过分解句子为短语、分解短语为单词,下游应用将会得到更多更深层次的结构化信息。复合性定理是指,一个复杂表达式的意义是由其各个组成部分的意义以及用以结合它们的规则来决定的。短语结构语法描述了如何自顶而下地生成一个句子。反过来,句子也可以用短语结构语法来递归地分解原创 2021-03-05 16:16:07 · 2730 阅读 · 2 评论 -
NLP笔记之Python文本分类原理简析
一、概述上一篇文章中简单介绍了文本聚类,体验了无标注语料库的便利性。然而无监督学习总归无法按照我们的意志预测出文档的类别,限制了文本聚类的应用场景。很多情况下,我们需要将文档分门别类到具体的类别中。因此需要用到文本分类。本文便主要讲解文本分类的原理及实践。二、文本分类的概念文本分类,指的是将一个文档归类到一个或者多个类别的自然语言处理任务。值得一提的是,文档级别的情感分析也可以视作文本分类任务。此时情感分析的目的就是判断一段文本是否属于“正面”、“负面”等情感。每篇文章一般只属于一个类别,这是最常见原创 2021-02-26 19:49:39 · 650 阅读 · 0 评论 -
NLP笔记之文本聚类
NLP笔记之文本聚类一、概述文本聚类是聚类在文本上的应用。由浅入深,需要先介绍聚类的思想。二、聚类思想简介聚类是将给定对象的集合划分为不同子集的过程,目标是使每个子集内部的元素尽量相似,不同子集(簇)之间的元素尽量不相似。根据元素从属集合的确定程度,聚类分为硬聚类和软聚类。1.硬聚类:每个元素被确定地分入一个类2.软聚类:每个元素与每个簇都存在一定的隶属程度,只不过该程度有大有小。在实际工程尤其是NLP任务中,由于硬聚类更加简洁,所以使用得更频繁。三、文本聚类文本聚类指的是对文档进行的聚类原创 2021-02-25 20:25:33 · 1126 阅读 · 0 评论