
文本处理
文章平均质量分 93
北岛知寒
这个作者很懒,什么都没留下…
展开
-
[置顶]【整理】图解隐马尔可夫模型(HMM)
写在前面最近在写论文过程中,研究了一些关于概率统计的算法,也从网上收集了不少资料,在此整理一下与各位朋友分享。隐马尔可夫模型,简称HMM(Hidden Markov Model), 是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。本文适用于对HMM感兴趣的入门读者,为了让文章更加通俗易懂,我会多阐述数学思想,尽可能的撇开公式,撇开推导。结合实际例子,争原创 2017-03-05 17:35:49 · 1241 阅读 · 2 评论 -
[置顶]论如何优雅的处理回文串 - 回文自动机详解
写在前面最近无意中看到了这个数据结构,顺便也就学习了一下。而且发现网上关于这个算法的描述有很多地方是错的,在这里做了一些更正。处理字符串的算法很多: KMP,E-KMP,AC自动机,后缀三兄弟:后缀树、后缀数组、后缀自动机,Trie树、Trie图,符串hash...但以上数据结构在处理回文串上还是稍有欠缺,用这些来处理回文显得太小题大做。于是有了Manacher算法,原创 2017-03-05 17:35:29 · 560 阅读 · 0 评论 -
[置顶]AC自动机-算法详解
What's Aho-Corasick automaton? 一种多模式串匹配算法,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一。 简单的说,KMP用来在一篇文章中匹配一个模式串;但如果有多个模式串,需要在一篇文章中把出现过的模式串都匹配出来,就需要Aho-Corasick automaton算法了。My Understanding About Aho-Coras原创 2017-03-05 17:35:27 · 11720 阅读 · 3 评论