KTDictSeg V1.4.01 新增功能说明及下载地址
KTDictSeg 1.4.01 版本经过一段时间的紧张开发,今天正式发布。感谢这段时间一直关心这个项目的朋友们。希望我的工作能给大家带来快乐。
1、 增加对Asp.net的支持
由于Asp.net 应用的当前路径并不指向web root 或 web root/bin , 1.4以前版本依靠当前工作路径来读取配置文件的方式无法支持Asp.net应用。1.4版本修改了这个错误。1.4版本目前已经可以很好的支持ASP.NET应用。
2、 增加多元分词
参见 KTDictSeg 1.4 版本功能介绍 - 多元分词
3、 增加对相对路径的支持(winform 和 asp.net)
<?
xml version="1.0" encoding="utf-8"
?>
<
KTDictSeg
>
<!--
未登录词阈值,当统计超过这个值时,自动将未登录词加入到字典中
-->
<
Item
Name
="UnknownWordsThreshold"
Value
="100"
/>
<!--
自动插入超过统计阈值的未登录词
-->
<
Item
Name
="AutoInsertUnknownWords"
Value
="False"
/>
<!--
优先判断词频,如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。如 中央酒店的词频比中央和酒店的词频都要低,则忽略中央酒店。
-->
<
Item
Name
="FreqFirst"
Value
="True"
/>
<!--
自动统计姓名前后缀,自动统计未登录词,自动统计词频
-->
<
Item
Name
="AutoStudy"
Value
="True"
/>
<!--
间隔多少秒自动保存最新的字典和统计信息,AutoStudy = true时有效
-->
<
Item
Name
="AutoSaveInterval"
Value
="86400"
/>
<!--
字典文件所在路径
-->
<Item Name="DictPath" Value="Data/" />
<!--
日志文件名
-->
<
Item
Name
="LogFileName"
Value
="KTDictSeg.log"
/>
<!--
是否匹配汉语人名
-->
<
Item
Name
="MatchName"
Value
="True"
/>
<!--
是否过滤停用词
-->
<
Item
Name
="FilterStopWords"
Value
="True"
/>
<!--
是否启用多元分词
-->
<
Item
Name
="MultiSelect"
Value
="True"
/>
<!--
冗余度
-->
<
Item
Name
="Redundancy"
Value
="1"
/>
</
KTDictSeg
>
见上图 KTDictSeg.xml 中的DictPath
4、 字典工具增加根据词性和单词长度查找功能。

5、 字典工具增加单词导出功能,用于构件停用词表。
在左边列表框点右键选导出,就可以到处列表框中查询出来的词。
6、 增加ASP.NET 的例子

项目首页
我做了一个简单的项目首页,下载地址也在这个首页里面,大家可以访问
KTDictSeg 项目首页