
机器学习
果子果实
这个作者很懒,什么都没留下…
展开
-
特征选择过程 总结
step1:特征子集搜索前向搜索后向搜索双向搜索详见瓜书p248step2:子集评价理解:特征子集A实际上确定了对数据集D的一个划分,每个划分区域对应着A上的一个取值,而样本标记信息Y则对应着D的真实划分,通过估算这两个划分的差异,就能对A进行评价。评价标准:与Y对应的划分的差异越小,则说明A越好。一、具体的计算方法(1)卡方检验统计学第9章(2)方差分析(3)信息增益?...原创 2020-04-14 14:56:44 · 1258 阅读 · 0 评论 -
lightGBM 简单摘要
GBDT(梯度提升决策树,gradient boost decision tree 的实现:XGBoost、pGBRT、sklearn、gbm in R 。pGBRT通过直方图实现算法。XGBoost支持预排序和直方图算法。已有研究:如何实现GBDT速度提升:1)减少训练数据:已有随机采样(SGB:准确率下降),根据样本权重筛选(GBDT没有native weights for data ...原创 2020-03-15 11:48:51 · 230 阅读 · 0 评论 -
集成学习(未完成
两大类:串行:boost (e.g.adaboost, xgboost) , 减小偏差(主并行:bagging(e.g. RF),减少方差(主boost对特定的数据分布进行学习:re-weighting, re-sampling?基础adaboost只适用于二分类bagging样本随机性:自主采样法63.2%特征随机性:随机森林用到了,属性子集k=log2(d)(训练效率更高,泛化...原创 2020-03-14 15:01:31 · 128 阅读 · 0 评论 -
sklearn.svm 多分类
>>> from sklearn import svmX = [[0,0], [1,1],[2,2],[3,3]]Y = [0, 1,2,3]clf = SVC( probability=True)clf.fit(X,Y)print(clf.predict([[0,0], [1,1],[2,2],[3,3]]))print(clf.predict_proba([[0...转载 2019-07-07 20:13:53 · 15072 阅读 · 1 评论 -
sklearn.SVC参数解读及优化方法
https://www.cnblogs.com/nolonely/p/7007961.html学习器模型中一般有两个参数:一类参数可以从数据中学习估计得到;还有一类参数无法从数据中估计,只能靠人的经验进行指定,后一类参数就叫超参数比如,支持向量机里的C,Kernel,gama,朴素贝叶斯里的alpha等,在学习其模型的设计中,我们要搜索超参数空间为学习器模型找到最合理的超参数,可以通过以...转载 2019-07-14 10:02:13 · 8287 阅读 · 0 评论 -
sklearn.feature_selection
https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html注意:sklearn.feature_selection 和sklearn.feature_extraction不是一回事奥!转载 2019-07-15 09:56:34 · 1199 阅读 · 0 评论 -
lightGBM pythonAPI 参数解读
https://lightgbm.readthedocs.io/en/latest/Python-API.htmlmodel API:class lightgbm.LGBMModel(boosting_type=‘gbdt’, num_leaves=31, max_depth=-1, learning_rate=0.1, n_estimators=100, subsample_for_bin=...转载 2019-07-15 15:40:31 · 1384 阅读 · 0 评论 -
lightGBM参数调优
http://www.zeroyx.com/index.php?r=site/art&id=17&title_id=121转载 2019-07-15 19:39:10 · 514 阅读 · 0 评论 -
win10 anaconda用conda命令安装 lightgbm(不是用pip安装gbm)
https://blog.youkuaiyun.com/m0_37534550/article/details/88060071转载 2019-07-16 09:27:21 · 1204 阅读 · 0 评论