- 博客(4)
- 收藏
- 关注
原创 特征选择方法之信息增益【转】
除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越...
2012-08-27 17:18:51
231
原创 关于C++ const 的全面总结
C++中的const关键字的用法非常灵活,而使用const将大大改善程序的健壮性,本人根据各方面查到的资料进行总结如下,期望对朋友们有所帮助。Const 是C++中常用的类型修饰符,常类型是指使用类型修饰符const说明的类型,常类型的变量或对象的值是不能被更新的。 一、Const作用1 可以定义const常量 ;示例: ...
2012-08-27 17:17:03
109
原创 Hadoop开发常用的InputFormat和OutputFormat(转)
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,Lo...
2012-08-27 17:15:41
128
原创 C++读取和处理UTF-8格式文件的方法
关于UTF-8、GB2313、ANSI、UNICODE的编码问题,在此不多说,百度上资料很多的。以下为源代码:[code="c++"]// UtfFile.h: interface for the UtfFile class.////////////////////////////////////////////////////////////////////////#...
2012-08-27 17:13:49
3147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人