自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 关于正则化

2017-07-27 00:08:35 370

转载 关于数据标准化,归一化,正则化

一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化。 f

2017-07-26 23:27:27 991 1

原创 xgboost--API

xgboost.sklearn.XGBClassifier = class XGBClassifier(XGBModel, sklearn.base.ClassifierMixin) |  Implementation of the scikit-learn API for XGBoost classification. |   |      Parameters |  -----

2017-06-07 16:44:31 764

原创 镜像

http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy

2017-06-07 15:24:06 311

原创 特征工程指南

特征工程指南                       --------翻译来自 毕辉,如需转载请注明。如因翻译差错造成任何损失,本人概不负责。更多内容见原版英文PPT。 特征工程 数据科学最有创造力的方面。要像其他任何有创造力的尝试一样对待它,就想写一个喜剧的秀。坚持头脑风暴创建模板或公式检查/重新审视以前的工作  特征分类 一些预处

2017-04-06 17:14:27 1414

原创 关于adaboost

adaboost的全称是adaptive boosting—-自适应增强。 增强体现在速度快,因为误差的收敛不是呈线性,而是以指数速度下降的,具体的公式推导可参见http://download.youkuaiyun.com/detail/ironflood/9692331?locationNum=7&fps=1adaboost的算法流程分三步: 1. 初始化训练数据的权值分布。1/N 2. 训练弱分类器。

2017-01-17 13:10:14 331

原创 从决策树到随机森林--小结

决策树算法接触了三种,ID3,C4.5,CART。 1. ID3采用信息增益来选择特征,算法比较基础也简单,缺点是容易过拟合,不能适应连续性输入。 2. C4.5采用信息增益率来选择特征,能应对连续性输入了。 3. CART用基尼指数来选择特征。值得一提的是,sklearn有关决策树的库中,默认是用CART,可选ID3,但是没有看见C4.5的相关可选值。(在随机森林里也是这样)随机森林

2017-01-17 12:57:47 560

原创 Keras模型

Keras有两种模型,顺序模型(Sequential)和泛型模型(model)。 两类模型有一些方法是相同的: model.summary() 打印模型概况 model.get_config() 返回包含模型配置信息的python字典。模型也可以从它的config中重构回去。 config = model.get_config() model = Seq

2017-01-17 12:41:03 1025

原创 sklearn.neighbors.KNeighborsClassifier源码笔记

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs)Examples >

2017-01-04 10:11:43 1860

原创 sklearn.neighbors.NearestNeighbors源码笔记

参数: n_neighbors:整数,可选(默认值为5),用k_neighbors查找的近邻数。 radius:浮点数,可选(默认值为1.0) algorithm:{‘auto’,’ball_tree’,’kd_tree’,’brute’},可选 算法用来计算临近的值,‘ball_tree’会用BallTree,’kd_tree’会用KDtree,’brut

2017-01-02 19:53:49 5047

原创 SAS小结

关于输出数据 文件通常的做法(不可乱用):将外部数据文件导入为SAS数据集:1.未固定变量   INFILE语句,配合INPUT语句(适用于TXT,DAT型)                                                          2. 已固定变量  导入数据窗(由SAS版本决定的类型。)   LIBNAME语句配合数据引擎将SAS数据集导出为

2017-01-02 10:43:34 367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除