Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度。虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。
1. 前言
Ansj支持多种分词方式,其中ToAnalysis为店长推荐款:
它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.如果你初次尝试Ansj如果你想开箱即用.那么就用这个分词方式是不会错的.
因此,本文将主要分析ToAnalysis的分词实现(基于ansj-5.1.0版本)。
本文深入探讨开源中文分词工具Ansj,重点分析ToAnalysis分词方式和基于DAG的分词算法,包括Bigram模型、自定义词典的使用,以及Ansj如何优化分词效率和准确性。
订阅专栏 解锁全文
1000

被折叠的 条评论
为什么被折叠?



