
NLP基础/句法语义分析
自然语言处理/文本处理
u013250861
这个作者很懒,什么都没留下…
展开
-
NLP在预处理期间何时将文本小写
大小写标准化是将大写字符转为小写字符,一般在西语中会用到。但是对于中文,不需要做此操作。而且Case Normalization 也并非是在所有任务场景中都有用,例如在英文垃圾邮件分类中,一般一个明显的特征就是充斥着大写单词,所以在这种情况下,并不需要将单词转为小写。参考资料:NLP在预处理期间何时将文本小写NLP与深度学习(一)NLP任务流程 ...原创 2022-02-20 01:27:23 · 374 阅读 · 0 评论 -
NLP-文本处理: 预处理步骤【删除停用词、删除多余的空间、将数字转换为其文本表示形式、小写文本、将标点符号与单词分开、抽词干、词形归一、拼写检查】
参考资料:自然语言处理 预处理步骤_NLP预处理:-一个有用且重要的步骤Python下的英文预处理原创 2022-02-16 22:45:00 · 1115 阅读 · 0 评论 -
NLP-文本处理:词形归一(Lemma)【英文】【把各种类型的词的变形都归为一个形式】【went->go;are->be】
NLP-文本处理:词形归一(Lemma)【英文】【把各种类型的词的变形都归为一个形式】【went->go;are->be】原创 2022-02-13 23:15:00 · 937 阅读 · 0 评论 -
NLP-文本处理:序列标注【NLP中最基础的任务:应用于分词、词性标注、命名实体识别、关键词抽取、语义角色标注、槽位抽取】
参考资料:序列标注自然语言处理之序列标注问题序列标注的定义和分类NLP | 一文完全搞懂序列标注算法原创 2022-01-27 23:15:00 · 643 阅读 · 0 评论 -
词消歧算法:使用WordNet和Lesk算法进行英文消歧义
参考资料:使用WordNet和Lesk算法进行英文消歧义的Python实现原创 2022-01-14 22:45:00 · 734 阅读 · 0 评论 -
NLP中的预处理:文本归一化
NLP中的预处理:文本归一化参考资料:NLP中的预处理:使用Python进行文本归一化原创 2022-01-14 23:15:00 · 1429 阅读 · 0 评论 -
自然语言处理(NLP)语义分析:“词汇级”语义分析【词义消歧、词义表示和学习】、“句子级”语义分析【浅层语义分析(语义角色标注)、深层语义分析】
语义分析(Semantic Analysis):指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为:- 词汇级语义分析;- 句子级语义分析;- 篇章级语义分析;一般来说:- 词汇级语 义分析关注的是如何获取或区别单词的语义;- 句子级语义分析则试图分析整个句子所表达的 语义,- 篇章语义分析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子从句 或段落)间的语义关系。原创 2022-01-10 17:46:55 · 5232 阅读 · 0 评论 -
NLP-文本处理:英文文本挖掘预处理流程总结
参考资料:英文文本挖掘预处理流程总结原创 2022-01-07 21:49:50 · 986 阅读 · 0 评论 -
NLP-文本处理:中文文本挖掘预处理流程
参考资料:中文文本挖掘预处理流程总结原创 2022-01-07 21:48:31 · 736 阅读 · 0 评论 -
NLP-文本处理:基本技术【命名实体识别、分词、拼写纠错、停用词、词性标注】、文本序列化、文本向量化、文本语料的数据分析、文本特征处理(Ngram特征添加、文本长度规范)、数据增强
文本预处理及其作用:文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.# 一、文本处理的基本方法## 1、分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过原创 2021-02-06 23:54:47 · 2700 阅读 · 1 评论 -
NLP-信息抽取-NER-2015-BiLSTM+CRF(一):命名实体识别【预测每个词的标签】【评价指标:精确率=识别出正确的实体数/识别出的实体数、召回率=识别出正确的实体数/样本真实实体数】
深度学习-自然语言处理(NLP)-文本预处理:命名实体识别(NER)【BiLSTM/Bert + CRF模型】【第三方NER工具包无法识别专业领域的命名实体,需根据专业名词来训练自用命名实体识别模型】原创 2021-03-27 21:18:26 · 2433 阅读 · 1 评论 -
NLP-基础任务-分词算法:概述【成熟的第三方工具包:中文(jieba、哈工大LTP)、英文(NLTK、SpaCy、StanfordCoreNLP)】
深度学习-自然语言处理(NLP)-文本预处理:分词原创 2021-03-27 21:29:45 · 1366 阅读 · 0 评论 -
NLP-文本处理:词性标注【使用成熟的第三方工具包:中文(哈工大LTP)、英文()】【对分词后得到的“词语列表”进行词性标注,词性标注的结果用于依存句法分析、语义角色标注】
深度学习-自然语言处理(NLP)-文本预处理:词性标注原创 2021-03-27 21:30:45 · 3960 阅读 · 0 评论 -
NLP-文本处理:依存句法分析(主谓、动宾、动补...)【基于“分词后得到的词语列表A”+“A进行词性标注后得到的词性列表B”来进行依存句法分析】【使用成熟的第三方工具包】
句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:句法结构分析(syntactic st原创 2021-03-27 21:40:40 · 6378 阅读 · 2 评论 -
NLP-文本处理:语义角色标注(触发者、谓语、受事者、时间..)【基于“句子A的分词列表B”+“B的词性列表C”+“B与C的依存句法分析结果”】-->关系抽取-->知识图谱
深度学习-自然语言处理(NLP)-文本预处理:语义角色标注原创 2021-01-02 23:40:57 · 1339 阅读 · 0 评论 -
NLP-文本处理:指代消解(Coreference Resolution)【回指消解(名词<-->代词)、共指消解(名词1<-->名词2)】【识别指向同一实体的不同表述】【难度较大,准确率不会太高】
自然语言处理(NLP)-文本处理:指代消解(Co-reference Resolution)原创 2021-04-06 10:35:58 · 8602 阅读 · 2 评论 -
NLP-文本处理:实体对齐(实体统一)(Entity Resolution)【判断2个实体是否指向同一个实体:文本中的实体统一、基于图的实体统一】
自然语言处理(NLP)-文本处理:实体统一(Entity Resolution)原创 2021-04-06 10:19:48 · 4682 阅读 · 0 评论 -
NLP-文本处理:实体消歧/词义消歧(Entity Disambiguiation / Word Sense Disambiguation)
自然语言处理(NLP)-文本处理:实体消歧(Entity Disambiguiation)原创 2021-04-06 10:01:06 · 1750 阅读 · 0 评论 -
NLP-文本处理:词性消歧
深度学习-自然语言处理(NLP)-文本预处理:消歧分析原创 2021-03-28 21:12:02 · 519 阅读 · 0 评论 -
NLP-文本处理:拼写纠错【非词(编辑距离)、真词(编辑距离...)候选词 -> “噪音通道模型”计算候选词错拼成待纠错词的似然概率 -> N-gram模型评估候选词组成的语句合理性】
一、贝叶斯公式1、单事件P(Ax∣B)P(A_x|B)P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)×P(Ax)P(B)=P(B∣Ax)×P(Ax)∑i=0n[P(B∣Ai)∗P(Ai)]=\frac{P(A_xB)}{P(B)}=\frac{P(B|A_x)×P(A_x)}{P(B)}=\frac{P(B|A_x)×P(A_x)}{\sum_{i=0}^n[P(B|A_i)*P(A_i)]}=P(B)P(AxB)=P(B)P(B∣Ax)×P(Ax)=∑i=0n[P(B∣Ai).原创 2021-02-06 23:56:02 · 6263 阅读 · 2 评论 -
NLP-文本处理:词的过滤(Words Filtering)【停用词、低频词】
深度学习-自然语言处理(NLP)-文本预处理:词的过滤(Words Filtering)原创 2021-03-28 21:59:05 · 2543 阅读 · 0 评论 -
NLP-文本处理:词干提取(Stemming)【英文】【单词的标准化;英文需要做词干提取,中文不需要做词干提取】【把不影响词性的小尾巴(前缀、后缀等)砍掉】
深度学习-自然语言处理(NLP)-文本预处理:词干提取(Stemming)原创 2021-03-28 21:57:33 · 1553 阅读 · 0 评论 -
NLP-文本处理:数据批次化【DataSet、DataLoader构建】
人工智能-自然语言处理-应用案例:问答系统(Question Answering)原创 2021-02-01 22:48:43 · 930 阅读 · 0 评论 -
NLP-语料库:语料库资源介绍
国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2.古代汉语语料库http://www.cncorpus.org/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性原创 2021-04-17 21:16:20 · 4990 阅读 · 0 评论 -
NLP-语料库:英文语料库【Brown Corpus(有词性标注)、LOB(Lancaster-Oslo/Bergen,英国英文)...】
链接:https://pan.baidu.com/s/1Xb4JZxMq1ugD0zj7hOPnng 密码:ri9i原创 2021-04-17 21:36:50 · 2948 阅读 · 0 评论