
中文信息处理
杨陈菊
whether you are lion or gazelle you must sprint for survival
展开
-
基于HMM的词性标注方法
文章目录1 HMM模型概念2序列标注问题 (Sequence Labeling Problem)3 基于HMM的词性标注方法3.1 HMM词性标记模型3.2 HMM词性标记计算3.3 预测问题(解码问题)4 HMM词性预测的缺点1 HMM模型概念首先来理解以下什么是HMM,HMM是隐马尔可夫模型(Hidden Markov Model)的简称,是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析。为了比较容易上手,原创 2020-09-03 20:04:25 · 5725 阅读 · 0 评论 -
初入中文信息处理
最近往中文信息处理的方向进行研究,查阅资料,翻看书籍,做了一下总结。一、什么是图灵测试?一个封闭的小屋,屋外一个人,屋内依次进入一个人和一台计算机,屋外的人并不知道屋内是人还是计算机,屋外的人向屋内的人或计算机提问,根据里面的回答判断屋内是人还是计算机。上世纪50年代,图灵在具有跨时代意义的论文《计算机器与智能》上提出“机器能思考吗”的问题,并为此设下了“图灵测试”。自然语言处理“自...原创 2019-04-01 22:20:51 · 530 阅读 · 0 评论 -
词信息处理基础(概率论、信息论基础)
文章目录一、概率论基础1.转移概率2. 条件概率二、信息论基础1.信息熵2. 联合熵3.条件熵4.互信息5. 交叉熵三、n元语法模型四、语法模型的性能评价一、概率论基础语言统计中常常会用到概率论知识,常用到的是概率、转移概率、条件概率。概率的概念这里不再描述。1.转移概率转移概率是指从一个状态到另一个状态的概率,实际上是一种特殊的条件概率,即规定了邻接顺序的条件概率。举例说明:从“中国...原创 2019-04-02 13:37:11 · 1075 阅读 · 0 评论