libsvm分类小记(三)

本文讨论了文本分类中特征维数的选择对准确率的影响,并强调了合理设计程序的重要性,避免重复工作,提高效率。

设计如上图所示的文本分类预处理模块。考虑到要研究特征维数的不同选择对分类准确率的影响。也就是在同一个文档集合上面,同一种特征选择方法上面,要多次建立VSM模型。如特征维数为1000的情况下的VSM模型,特征维数为2000情况下的VSM模型。在这种情况下,只需要多次调用VSMFormation模块就行了,因为文档集没有变,所有词袋子模型没有变,因为特征词选择方面没有变,所以词的优先序没有变。这是一个非常简单的道理,可是我最初在设计程序的时候,竟然每个维度都要重新分词,重新建立词袋子模型,重新进行特征值计算。。。好傻瓜。

有的时候"磨刀不误砍柴工"如果我在一开始设计实验编写程序的时候,不是仅仅画了如上的一个框架图,而且把各个模块之间怎样衔接,函数如何命名,如何传递都设计好了,就不会出现对程序改了又改的情况了。有道是“磨刀不误砍柴工”,“慢工出细活”。写程序做实验,不能总持有一种投机的态度:就要能编译通过了就好,今天编译通过了,明天编译不通过,那么明天再改。。应该胸有成竹才对。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值