搜索项目终于上线了,但伴随来的大量问题,最大的问题是分词性能不理想,虽然加入词库,但JE分词明显的BUG造成了大量问题,当然这不是什么理由,但最后的结果是丢了大人,最后在进度面前我决定放弃这种错误率过高的分词系统使用单字分词,但。。。今天人丢得很大,冷静下来好好思考,别人的终究是别人的东西,还是好好研究研究怎么搞分词吧。较好的分词是可以提高效率的,单字法虽然准确性表面看起来比词法高,但是高开销和某些时候的误码率是不得不看到的。
列出几点需求:
1 支持词库,这是由于我们的应用特殊性决定的,大部分都不是自然语言如果没有词库分词将形同虚设
2 高性能
3 抗错误能力,在分词无法得到结果的条件下还原成单字,这点对于查询时最关键,宁愿在分词无法完全匹配的时候用单字也不要用错误的组合得到错误的结果。我个人觉得应该有两种分词模式,一种是激进模式也就是类似JE的模式,另外一种是safe模式,用于query中。
列出几点需求:
1 支持词库,这是由于我们的应用特殊性决定的,大部分都不是自然语言如果没有词库分词将形同虚设
2 高性能
3 抗错误能力,在分词无法得到结果的条件下还原成单字,这点对于查询时最关键,宁愿在分词无法完全匹配的时候用单字也不要用错误的组合得到错误的结果。我个人觉得应该有两种分词模式,一种是激进模式也就是类似JE的模式,另外一种是safe模式,用于query中。