算法基于词库,未使用新词发现算法,无自字义字典功能。python源码,长约400行左右,使用py2exe转为可执行文件。
文件列清单:
bz2.pyd
library.zip
python27.dll
select.pyd
tree_dict_5.exe
unicodedata.pyd
w9xpopen.exe
_hashlib.pyd
data4.txt
mydict.dic
说明:
1. 使用方法:在win控制台下使用,格式:tree_dict_t.exe <datafile.txt>
2. data4.txt为输入数据文件(UTF-8),mydict.dic为字典;字典文件使用人民日报1998年中文标注语料库生成。
3. 使用树作为字典数据结构以方便查找,此处参考”《我自己设计的中文分词算法》http://blog.itpub.net/3247/viewspace-814600/“;初步切分后的句子使用深度优先搜索在候选中找出最优解。
下载地址:http://download.youkuaiyun.com/detail/u013754134/6977711