分词
文章平均质量分 88
voice_dsw
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
遗传算法
最近在研究一些算法,前几天看了一下遗传算法。 什么是遗传算法,简单地说是解决某一问题时,利用生物学中遗传的一些策略,现在可以说一下算法的步骤。 首先是初始化,确定遗传种群数量,染色体的基因数量,最大迭代次数,交叉概率,变异概率 第二步,复制/选择(选出父代)根据交叉概率随机的选出能够进行交叉的种群中的染色体, 第三步,在选出的种群的染色体中随机挑出2个进行交叉组合(即一个染原创 2016-08-16 23:33:01 · 610 阅读 · 0 评论 -
中文分词--逆向最大匹配
上一篇文章中介绍了正向最大匹配,可以看到有时候效果不是很好,这里在介绍一种逆向最大匹配的算法。词典和匹配的字符串都和上一篇文章相同 只是本算法是从后到前搜索字符串,然后找到最长的匹配结果输出。上代码 [java] view plain copy print? [java] view plain copy原创 2016-08-16 23:33:42 · 391 阅读 · 0 评论 -
中文分词选取-依概率选取
上一篇文章中介绍了一种中文分词的选取算法,本篇文章将介绍另外一种中文分词选取算法,依概率选取算法。 中文分词分词完成之后,还是上篇文章中的原则,分词结果不唯一,然后我们算法的目的是从几种分词好的算法之后选取一个作为分词的最终结果。算法会统计每个词在所有文档中的概率,该算法的中心思想是计算一个字符串中所有分词的概率之积,选取概率最大的作为分词的最终结果。 算法步骤原创 2016-08-16 23:34:14 · 452 阅读 · 0 评论 -
中文分词--最少单词数
中文分词算法在前两篇文章中介绍了正向最大匹配算法和逆向最大匹配算法 本篇文章主要介绍最少单词数算法。顾名思义,就是最少的单词数。 算法思想是首先查找词典中最长的单词,匹配看是不是所要分词的字符串的子串,如果是则就是分词的词,迭代以上结果,每次都会在字符串中最长的单词分词,就可以得到最少的单词数 不多说了 直接上代码: [java] v原创 2016-08-16 23:34:40 · 557 阅读 · 0 评论 -
中文分词——正向最大匹配法
中文分词应用很广泛,网上也有很多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码 [java] view plain copy print? package com; import java.util.ArrayList; import java.util.List;原创 2016-08-16 23:35:10 · 723 阅读 · 0 评论 -
中文分词选取-不成词个数判断法
运用前面几篇文章中的分词算法,可以把中文中的词语分出来,但是不同算法可能得到的分词结果不一样,到底如何确定那种分词效果最好呢。我们在这篇文章中探讨一种判断分词效果好坏的方法。 在分词的时候,有些单字是不成词的。可以搜索所有分词的可能性,然后对每一种分词结果进行统计,规则如下:每分出一个词就给分词统计结果加一,如果遇到不成词的单字就再给该分词结果加一。得到的结果分别计算出来。选原创 2016-08-16 23:36:22 · 513 阅读 · 0 评论
分享