推荐系统1——分词1

本文介绍了中文分词中的N-Gram模型、正向最大匹配法和逆向最大匹配法。N-Gram模型基于统计,依赖于前后词的共现频度;正向/逆向最大匹配法则利用词典进行字符串匹配,前者从左到右,后者从右到左。这些方法在实际应用中结合词典和统计,以提高分词准确性和效率。

仅基于网上学习资料以及自己的了解,本文随时可能更改。

在信息推荐中使用分词算法是为了提取关键字。

1、N-Gram Model

即N元文法统计模型,假定在一个语句中第i个词出现的频率,条件依赖于它前面的N-1个词。整句的概率就是各个词出现的概率乘积。在各种可能的分词方法中取构成句子的概率最大者(最大似然估计...woc)。若N过大,那么这种方法有两个缺陷:参数空间过大无法实用化;数据稀缺严重。


由马尔科夫假设:“一个词的出现概率仅仅依赖于它前面的一个或几个词”,常常使用bigram和trigram,即仅根据一个词前面的一个词(就是bigram)(公式:P(T) = P或两个词(就是trigram)来计算整句概率。


N-gram是一种基于统计的分词方法,基于统计的分词方法又叫无词典分词法或统计取词方法。原理:相邻的字同时出现频度越多,他们越有可能是作为一个词出现。因此统计语料中相邻共现的字的组合的频度,计算它们的互现信息。这种方法只需要对语料中的字组频度进行统计,而不需要切分字典。其局限性:会经常抽出一些同时出现而并非作为词语的常用词组:“我的”、“这一”、“之一”等等。


实际应用的统计分词系统需要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,有利用了无词典分词结合上下文识别生词、自动消除歧义的优点。


2、正向最大匹配法(逆向最大匹配法)

使用一部词典,其中最长词条长度为n。从字符串开头起,自左向右取n个字符,在词典中寻找匹配;若匹配到则向后再取n个字符,若匹配失败则去掉最后的字符,重新匹配,如此重复,直到切分成功为止。


逆向最大匹配法是从结尾开始,从右向左取字符,且若匹配失败则去掉最前的字符。逆向最大匹配法精确度高于正向最大匹配法。


这是一种基于字符串匹配的分词方法,基于字符串匹配方法又叫机械分词方法。这种方法将字符串与一个词典中的词条进行匹配,匹配成功则分出该词。常用的还有“最少切分”方法,这种方法使得每一句中切出的次数最少。


3、基于字标注的中文分词方法(来源:我爱自然语言处理”:www.52nlp.cn http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation

这种方法不依赖于实现编制好的词典,基于字标注的方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位),

假如规定每个字最多只有四个构词位置:即B(词首),M (词中),E(词尾)和S(单独成词),那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式:


(甲)分词结果:/上海/计划/N/本/世纪/末/实现/人均/国内/生产/总值/五千美元/ 
(乙)字标注形式:上/B海/E计/B划/E N/S 本/s世/B 纪/E 末/S 实/B 现/E 人/B 均/E 国/B 内/E生/B产/E总/B值/E 五/B千/M 美/M 元/E 。/S

把分词过程视为字的标注问题的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。最后,根据词位定义直接获得最终的分词结果。总而言之,在这样一个分词过程中,分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值