文本分类资源和程序开源共享

作者finallyly在博客园发布个人整理的中英文新闻分类语料及文本分类流程程序,现进行部分开源,提供文本语料库、文本分类程序及VSM模型的下载地址。

作者:finallyly 出处:博客园 (转载请注明 作者和出处)

前言:

感谢dudu和博客园的支持,我于2010年10月曾在博客园的个人博客中发布了个人整理的汉语新闻分类语料,以及文本分类流程程序。 历时两年收到了广大网友的支持、批评和指正。现在面临毕业,所以对自己硕士阶段的工作进行了部分开源。

文本语料库(包括中英文新闻)的详细说明以及下载地址为: http://www.datatang.com/data/13484

文本分类程序最新版的详细说明以及下载地址为: http://www.datatang.com/data/13483

文本分类的中间表达形式VSM模型的详细说明以及下载地址为:

(1)英文语料的VSM模型: http://www.datatang.com/data/13486

(2)中文语料的VSM模型: http://www.datatang.com/data/13485

 同时也欢迎大家关注 中科院自动化所“自动化学科创新方法课题”数据专区的其他数据,如有数据需求,欢迎下载,更欢迎留下您宝贵的反馈意见。

关于文本分类程序说明,以及语料说明的博文地址为: http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html

 我们还会开源更多的资源和程序,如果您对中文DBLP感兴趣,欢迎关注我的博客园博客,以及我们在数据堂建立的个人数据专区。专区用于资源共享,博客将会给出相应的算法设计,和代码使用说明。

同时欢迎大家关注 

 http://weibo.com/autoinnovation

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值