
NLP
tianyouououou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
计算机语言学笔记(五)隐马尔科夫模型
4 隐马尔可夫模型 4.1 模型 一阶马尔科夫模型可以描述为一个二元组( S, A ) ,S是状态的集合,而A是所有状态转移概率组成的一个n行n列的矩阵,其中每一个元素aij为从状态i转移到状态j的概率 。 在坛子与小球问题中,如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。 隐马尔可夫过程是一...原创 2019-07-12 21:25:33 · 1086 阅读 · 0 评论 -
计算机语言学笔记(三)N-gram和数据平滑
3 N-gram和数据平滑 3.1 语言建模 语言建模:对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。 语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、,手写体识别,机器翻译,信息检索等领域。 在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性 较大的识别结果。 对于给定句子s= w1w2w3…,使用链...原创 2019-07-12 15:38:38 · 1138 阅读 · 0 评论 -
计算机语言学笔记(二)现代汉语切分研究
2 现代汉语词语切分研究 汉语自动切分:把字串自动转换为词串。 英语中的切分更容易。 2.1 为什么要进行汉语切分 TTS或语音合成中,只有正确切词才能知道正确的发音,只有正确的切词,才能正确变音,只有正确切词,才能解决轻声问题。 信息检索中,切分有助于提高信息检索的准确率。 词语的计量分析中,可以进行词频统计。 等等等等… 汉语切词也是深层汉语分析的基础。 2.2 基本方法 最大匹配法:正向最大...原创 2019-07-10 19:07:04 · 670 阅读 · 0 评论 -
计算机语言学笔记(一)计算机语言学概论
1 计算机语言学概论 计算机语言学:通过建立形式化的计算模型来分析、理解和处理自然语言的学科。 自然语言处理为了解决歧义等问题,常采用下面的对策。 交互式处理:人机互助进行处理。 受限语言:限定处理文本的领域。 受控语言:限定语言的词汇和句法,降低复杂度。 1.1 计算机语言学研究方法 研究方法:规则驱动的方法,数据驱动的方法和二者融合的方法。 规则驱动的方法:语言学家对语言规律总结,形成规则知识...原创 2019-07-10 17:59:59 · 1478 阅读 · 0 评论 -
计算机语言学笔记(九)特征结构与合一运算
9 特征结构与合一运算 上下文无关文法 上下文无关文法为句法知识的形式化提供了一个有效的工具。 同时,对于上下文无关文法,存在像Earley算法、广义LR算法等一系列有效的算法,进行句法分析。 然而,利用上下文无关文法描写自然语言,不但可以生成自然语言中的合法句子,也可以产生大量自然语 言中不合法的句子,存在所谓的过度生成问题。 一致性问题:限定词和名词时间的单复数一致。主语和谓语在人称和数方面保...原创 2019-07-14 19:58:16 · 563 阅读 · 2 评论 -
计算机语言学笔记(八)基于上下文无关文法的句法分析
8 基于上下文无关文法的句法分析 句法分析导引 以词为单位的分析技术:词语切分、形态分析、词类标注。 以句为单位的分析技术:句法分析。 以篇为单位的分析技术:指代分析。 句法分析关心句子的组成规律。 句子成分分析 句子是词的线性序列,但词和词之间结合的松紧程度并不一样。 句子在构造上具有层次性,较小的成分还可以进一步组成较大的成分。 不同性质的成分可以有不同的句法功能和分布,可以区分成不同的类型。...原创 2019-07-14 15:09:56 · 1574 阅读 · 1 评论 -
计算机语言学笔记(七)有限状态技术和形态分析
7 有限状态技术和形态分析 7.1 形态分析简介 形态学研究屈折语中词的构成规则。 英语、德语等时屈折语。 汉语是孤立语。 日语是黏着语。 词通常是语素组成,语素是语言中最小的意义单位。 英语中的语素 语素可以分成两大类:词干(提供词的主要意义)和词缀(提供词的附加意义,修改词干义或改变词的语法功能) 语素构成词的方法: 1.屈折变化:词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态...原创 2019-07-14 09:22:31 · 609 阅读 · 0 评论 -
计算机语言学笔记(六)词类自动标注
6 词类自动标注 6.1 汉语中词的分类 汉语中词分类的依据主要是词的分布特征,或者说主要依据词的语法功能。 词的语法功能主要指词在句法结构里所能占据的语法位置。(充当句法成分的能力和组合成短语的能力) 名词通常表示事物的名称、动词通常表示动作和行为、形容词表示事物的性质和状态。 实词和虚词: 1.实词可以充当主语、谓语和宾语。虚词则不可以。 2.实词有实在的意义,表示事物、动作、行为、变化、性质...原创 2019-07-13 19:47:28 · 587 阅读 · 0 评论 -
计算机语言学笔记(四)熵和语言模型评价
4 熵和语言模型评价 4.1 熵 变长编码:给小概率信息赋以较长的编码,给大概率消息赋以较短的编码。 信息论中用熵描述随机变量平均信息量。 H(X)≥0,等号表明确定场(无随机性)的熵最小。 H(X)≤log|X|,等号表明等概场的熵最大。 联合熵: 条件熵: 链式规则:H(X,Y) = H(X) + H(Y|X) 信息量的大小随着消息长度的增加而增加,为了便于比较,一般使用熵率的概念,熵率一般...原创 2019-07-12 16:23:00 · 472 阅读 · 0 评论