中文分词方法有很多,其中基于词典的分词方法有:
- 基于模式匹配的方法:(速度快)
正向最大匹配、逆向最大匹配法、双向匹配法
- 基于规则的方法:(索引压缩的效果最好)
最少分词法
基于统计的分词方法有:
- 统计语言模型分词(2-gram,3-gram)
- 串频统计的汉语自动分词
除了这些基本的方法,为了获得最佳的效果,也可以引入动态规划的方法获得最优解。
设句子P = W0W1W2⋯Wn , 其中Wi (0≤i≤n) 为句子P中的第i 个汉字。Si(0≤i≤n+1)为句子的第i个间隙(切分位置)
那么一个句子P理论上有多少种分词法呢?
分词分法总数的通项:F(n)表示一个有