
机器学习
五四三两幺-发射!
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
计算(分析\画出)给定数据的分布(概率密度函数)
目录一、背景知识1.累积分布函数2.概率密度函数3.核密度估计二、画出一组数据的分布(概率密度函数)1.数据的频率分布直方图2.画出给定数据的频率分布直方图3.画出给定数据的概率密度函数做ML时,往往需要先分析手头的数据,比如数据集中某个特征的分布特性。很多时候,拿到的数据分布不那么尽如人意,比如长尾分布,这时就需要做数据变换(比如box-cox变换),来得到分...原创 2019-12-04 18:40:06 · 29198 阅读 · 7 评论 -
lightGBM使用
1.categorical_feature(类别特征)使用lightGBM比XGBoost的1个改进之处在于对类别特征的处理, 不再需要将类别特征转为one-hot形式, 具体可参考这里.在使用python API时(参考官方文档)1.1可以使用pd.DataFrame存放特征X, 每一列表示1个特征, 将类别特征设置为X[cat_cols].astype('category'). 这样模型...原创 2019-12-03 09:58:47 · 8507 阅读 · 0 评论 -
sklearn的GridSearchCV的使用
可以先参考官方说明文档基本参数说明:estimator: 指定要使用的模型param_grid: 指定要搜索的参数scoring: 指定在搜索时, estimator的评分函数: 1.可用的预设的评分函数在这里(搜索sklearn.metrics)可以看到 2.可以通过sklearn.metrics.make_scorer(myfunc, greater_is_bette...原创 2019-12-02 15:46:43 · 1527 阅读 · 0 评论 -
GBDT算法笔记
目录1.CART回归树2.加法模型与前向分布算法3.回归问题的提升树4.GBDT算法5.GBDT用于二分类问题A.单个样本的损失(BCE损失)B.在第m步样本的损失的负梯度C.算法的第一步中, 模型的初始值D.每个节点区域的输出值的估计概述:GBDT算法可以看成是由M棵树CART回归树组成的加法模型,该模型使用前向分布算法来学习,在前向分布算法中,每一...原创 2019-11-26 17:52:18 · 622 阅读 · 0 评论 -
pca的最大方差理论解释
写这个主要为了自己理解,内容都是参考博文:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html一、数据预处理:去均值化,使得样本数据的均值为0方差归一化,保证每个特征的维度尺度近似(可以看出这里求方差没有减去均值,因为经过去均值化后,均值已经为0了)其中是样例,共m个,每个样例有n维原创 2017-06-08 17:16:53 · 10126 阅读 · 6 评论