1. 文本数据预处理系统软件
2.软件简称:文本数据预处理系统软件
3.版本号:v1.0
4.分类号:67500-9100
5.首次发表地点:西安
6.硬件环境: vs.net在windows环境下开发的,硬件是1G的内存,Inter(R)Core(TM2 CPU 2.00GHz),数据库系统根据采用sybase IQ
7.软件环境:Windows XP以上版本
8.编程语言:VC++ 6.0
9.源程序量:48649行
10.主要功能和技术特点(不超过300字)
主要功能:
可对网页进行内容分析和过滤,精确获取内容主体;
可对文档相似性检测,从而实现文本去重功能;
可进行基于内容的文本分类;
可进行文本自动分词;
可对文本进行信息抽取,包括关键字、自动文摘的提取;
根据用户需求进行模式定制,进行相应文本信息的提取;
对于发布的信息,可以对照查阅原链接网页。
技术特点:
根据句子特征库对其进行句子相似性计算;
采用的自动分类技术,可对网页进行无需人工干预的自动分类;
利用多层隐马尔可夫模型选取切分及标注的最佳结果,实现中文词语分词;
统计方法和启发式规则提取文档关键句,最后生成文档的摘要;
采用了基于统计和机器学习技术的自动分类技术;