
NLP
文章平均质量分 80
小珈猫
这个作者很懒,什么都没留下…
展开
-
自然语言处理(四)语言模型
传统语言模型N元文法大规模语料库的出现为自然语言统计处理方法的实现提供了可能,统计方法的成功应用推动了语料库语言学的发展。基于大规模语料库的统计方法可以:-发现语言使用的普遍规律-通过机器学习模型自动获取语言知识-对未知语言现象进行推测说明:(1) wi 可以是字、词、短语或词类等,统称为统计基元。通常以“词”代之;(2) wi 的概率取决于 w1, …, wi-1,条件序列w1, …, wi-1 称为wi 的历史(history)。神经语言模型...原创 2021-01-20 23:41:42 · 1495 阅读 · 0 评论 -
自然语言处理(三) 语料库和语言知识库
语料库基本概念语料库(corpus):用于存放语言数据的文件(语言数据库)。语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。语料库语言学研究的内容:语料库的建设与编纂(最重要)语料库的加工和管理技术语料库的使用语料库技术的发展语料库类型==按内容构成和目的划分 ==异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。异质(heterogeneous)语料库:最简单的语料原创 2020-12-08 16:00:10 · 5588 阅读 · 1 评论 -
自然语言处理(二)数学基础知识
概率论基础信息论基础熵是信息论中重要的基本概念主要用来衡量不确定性!!!!熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。...原创 2020-12-08 14:13:04 · 815 阅读 · 0 评论 -
自然语言处理(一)基础知识概念
基本概念计算语言学:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言学更加侧重基础理论和方法的研究。自然语言理解:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言原创 2020-06-10 09:18:30 · 1809 阅读 · 0 评论