Solowork_HB-优快云博客

转载关于数据标准化，归一化，正则化

一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。 f

2017-07-26 23:27:27 991 1

原创 xgboost--API

xgboost.sklearn.XGBClassifier = class XGBClassifier(XGBModel, sklearn.base.ClassifierMixin) | Implementation of the scikit-learn API for XGBoost classification. | | Parameters | -----

2017-06-07 16:44:31 764

原创镜像

http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy

2017-06-07 15:24:06 311

原创特征工程指南

特征工程指南 --------翻译来自毕辉，如需转载请注明。如因翻译差错造成任何损失，本人概不负责。更多内容见原版英文PPT。特征工程数据科学最有创造力的方面。要像其他任何有创造力的尝试一样对待它，就想写一个喜剧的秀。坚持头脑风暴创建模板或公式检查/重新审视以前的工作特征分类一些预处

2017-04-06 17:14:27 1414

adaboost的全称是adaptive boosting—-自适应增强。增强体现在速度快，因为误差的收敛不是呈线性，而是以指数速度下降的，具体的公式推导可参见http://download.youkuaiyun.com/detail/ironflood/9692331?locationNum=7&fps=1adaboost的算法流程分三步： 1. 初始化训练数据的权值分布。1/N 2. 训练弱分类器。

2017-01-17 13:10:14 331

原创从决策树到随机森林--小结

决策树算法接触了三种，ID3，C4.5，CART。 1. ID3采用信息增益来选择特征，算法比较基础也简单，缺点是容易过拟合，不能适应连续性输入。 2. C4.5采用信息增益率来选择特征，能应对连续性输入了。 3. CART用基尼指数来选择特征。值得一提的是，sklearn有关决策树的库中，默认是用CART，可选ID3，但是没有看见C4.5的相关可选值。（在随机森林里也是这样）随机森林

2017-01-17 12:57:47 560

原创 Keras模型

Keras有两种模型，顺序模型（Sequential）和泛型模型（model）。两类模型有一些方法是相同的： model.summary() 打印模型概况 model.get_config() 返回包含模型配置信息的python字典。模型也可以从它的config中重构回去。 config = model.get_config() model = Seq

2017-01-17 12:41:03 1025

原创 sklearn.neighbors.KNeighborsClassifier源码笔记

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs)Examples >

2017-01-04 10:11:43 1860

原创 sklearn.neighbors.NearestNeighbors源码笔记

参数： n_neighbors：整数，可选（默认值为5）,用k_neighbors查找的近邻数。 radius：浮点数，可选（默认值为1.0） algorithm：{‘auto’,’ball_tree’,’kd_tree’,’brute’},可选算法用来计算临近的值，‘ball_tree’会用BallTree,’kd_tree’会用KDtree,’brut

2017-01-02 19:53:49 5047

原创 SAS小结

关于输出数据文件通常的做法（不可乱用）：将外部数据文件导入为SAS数据集：1.未固定变量 INFILE语句，配合INPUT语句（适用于TXT，DAT型） 2. 已固定变量导入数据窗（由SAS版本决定的类型。） LIBNAME语句配合数据引擎将SAS数据集导出为

2017-01-02 10:43:34 367

qq_35793943的博客

原创关于正则化