- 博客(11)
- 收藏
- 关注
转载 关于数据标准化,归一化,正则化
一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化。 f
2017-07-26 23:27:27
991
1
原创 xgboost--API
xgboost.sklearn.XGBClassifier = class XGBClassifier(XGBModel, sklearn.base.ClassifierMixin) | Implementation of the scikit-learn API for XGBoost classification. | | Parameters | -----
2017-06-07 16:44:31
764
原创 特征工程指南
特征工程指南 --------翻译来自 毕辉,如需转载请注明。如因翻译差错造成任何损失,本人概不负责。更多内容见原版英文PPT。 特征工程 数据科学最有创造力的方面。要像其他任何有创造力的尝试一样对待它,就想写一个喜剧的秀。坚持头脑风暴创建模板或公式检查/重新审视以前的工作 特征分类 一些预处
2017-04-06 17:14:27
1414
原创 关于adaboost
adaboost的全称是adaptive boosting—-自适应增强。 增强体现在速度快,因为误差的收敛不是呈线性,而是以指数速度下降的,具体的公式推导可参见http://download.youkuaiyun.com/detail/ironflood/9692331?locationNum=7&fps=1adaboost的算法流程分三步: 1. 初始化训练数据的权值分布。1/N 2. 训练弱分类器。
2017-01-17 13:10:14
331
原创 从决策树到随机森林--小结
决策树算法接触了三种,ID3,C4.5,CART。 1. ID3采用信息增益来选择特征,算法比较基础也简单,缺点是容易过拟合,不能适应连续性输入。 2. C4.5采用信息增益率来选择特征,能应对连续性输入了。 3. CART用基尼指数来选择特征。值得一提的是,sklearn有关决策树的库中,默认是用CART,可选ID3,但是没有看见C4.5的相关可选值。(在随机森林里也是这样)随机森林
2017-01-17 12:57:47
560
原创 Keras模型
Keras有两种模型,顺序模型(Sequential)和泛型模型(model)。 两类模型有一些方法是相同的: model.summary() 打印模型概况 model.get_config() 返回包含模型配置信息的python字典。模型也可以从它的config中重构回去。 config = model.get_config() model = Seq
2017-01-17 12:41:03
1025
原创 sklearn.neighbors.KNeighborsClassifier源码笔记
class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs)Examples >
2017-01-04 10:11:43
1860
原创 sklearn.neighbors.NearestNeighbors源码笔记
参数: n_neighbors:整数,可选(默认值为5),用k_neighbors查找的近邻数。 radius:浮点数,可选(默认值为1.0) algorithm:{‘auto’,’ball_tree’,’kd_tree’,’brute’},可选 算法用来计算临近的值,‘ball_tree’会用BallTree,’kd_tree’会用KDtree,’brut
2017-01-02 19:53:49
5047
原创 SAS小结
关于输出数据 文件通常的做法(不可乱用):将外部数据文件导入为SAS数据集:1.未固定变量 INFILE语句,配合INPUT语句(适用于TXT,DAT型) 2. 已固定变量 导入数据窗(由SAS版本决定的类型。) LIBNAME语句配合数据引擎将SAS数据集导出为
2017-01-02 10:43:34
367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅