
NLP基础
Zh823275484
联系方式:18328609398@163.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于n-gram模型的中文分词
一、前言 n-gram模型,称为N元模型,可用于定义字符串中的距离,也可用于中文的分词;该模型假设第n个词的出现只与前面n-1个词相关,与其他词都不相关,整个语句的概率就是各个词出现概率的乘积;而这些概率,利用语料,统计同时出现相关词的概率次数计算得到;常用的模型是Bi-gram和Tri-gram模型。 n-gram的应用:模糊匹配二、算法推论 假设一个字符串s由m个词组成,...原创 2019-02-22 14:59:37 · 16320 阅读 · 8 评论 -
基于HMM的中文分词
一、前言 本文主要是基于隐马尔科夫模型对中文词进行分词。二、HMM的理解 HMM是一个统计模型,主要有HMM由初始状态概率分布π、状态转移概率分布A以及观测概率分布B确定,为了方便表达,把A, B, π 用 λ 表示,即: λ = (A, B, π) 状态集合S:{B,M,E,S},N=4 π:初始状态概率分布,如{B:-0.262686608...原创 2019-02-19 19:27:49 · 4393 阅读 · 0 评论 -
CRF条件随机场
CRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式(理解一些和生成模型的区别)的概率无向图模型,既然是判别式,那就是对条件概率分布建模。一、概率无向图模型 概率无向图模型是由无向图表示的联合概率分布,假设联合概率分布P(Y)通过无向图来表示,在图中节点表示随机变量,边表示随机变...原创 2019-02-26 17:02:06 · 1100 阅读 · 0 评论 -
基于双向匹配的中文切词
一、前言 本文主要是基于匹配算法进行中文的切词。二、算法思路最大正向匹配算法: 1、从左向有选取长度为m的字符作为匹配段 2、首相将最大词长度m作为该匹配词,在字典中查找,若存在,则将该词切分出来 3、若不存在,则切分m-1的词作为匹配词,在字典中查找;依次类推,知道m=1 4、若m字符类的词都不存在,则按字符进行切分; 5、此方法存在一个问题,会将首先...原创 2019-02-21 11:29:41 · 699 阅读 · 0 评论