- 通过词典对输入字符串生成一个有向无环图,以词典DAG{位置,[有效词的末尾索引]}
- 根据有向无环图的生成的词切片,计算出每一种可能分词组合的最大概率,这里用到了一个动态规划的算法,从句尾开始向前推进,最后可以得到一个基于字典中每个词的频率而得到的最优解。变量route中存储了从开始位置的分词最优路径,这里称之为路由的原因是因为这和路由器很相似,每个路由器只知道到达目的节点的下一站地址,但是整体的路由路线却是不知道的。
- 除此之外,结巴对于字母和数字的处理方法是:对于route得出单个字节的词,先全部连城一个buf 然后:1.(非隐马尔科夫版)组合在一起,并输出 2.隐马尔科夫版 比较在词典中是否有buf,如果有,则分开输出
结巴分词基本算法
最新推荐文章于 2023-12-19 00:57:57 发布