文本数据预处理系统软件

1. 文本数据预处理系统软件
2.软件简称:文本数据预处理系统软件
3.版本号:v1.0
4.分类号:67500-9100
5.首次发表地点:西安
6.硬件环境: vs.net在windows环境下开发的,硬件是1G的内存,Inter(R)Core(TM2 CPU 2.00GHz),数据库系统根据采用sybase IQ
7.软件环境:Windows XP以上版本
8.编程语言:VC++ 6.0
9.源程序量:48649行
10.主要功能和技术特点(不超过300字)


主要功能:
 可对网页进行内容分析和过滤,精确获取内容主体;
 可对文档相似性检测,从而实现文本去重功能;
 可进行基于内容的文本分类;
 可进行文本自动分词;
 可对文本进行信息抽取,包括关键字、自动文摘的提取;
 根据用户需求进行模式定制,进行相应文本信息的提取;
 对于发布的信息,可以对照查阅原链接网页。
技术特点:
 根据句子特征库对其进行句子相似性计算;
 采用的自动分类技术,可对网页进行无需人工干预的自动分类;
 利用多层隐马尔可夫模型选取切分及标注的最佳结果,实现中文词语分词;
 统计方法和启发式规则提取文档关键句,最后生成文档的摘要;
    采用了基于统计和机器学习技术的自动分类技术;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值