
机器学习
ds
bylfsj
这个作者很懒,什么都没留下…
展开
-
关于树的几个ensemble模型的比较(GBDT、xgBoost、lightGBM、RF)
决策树的Boosting方法比较原始的Boost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“严重关注”,也就被赋上一个很高的权重。然后等进行了N次迭代(由用户指定),将会得到N个简单的分类器(bas...转载 2020-03-09 15:11:29 · 1290 阅读 · 0 评论 -
珍藏版 | 20道XGBoost面试题
XGBoost的威名想必大家都有所耳闻,它不仅是数据科学竞赛神器,在工业界中也被广泛地使用。本文给大家分享珍藏了多年的XGBoost高频面试题,希望能够加深大家对XGBoost的理解,更重要的是能够在找机会时提供一些帮助。1. 简单介绍一下XGBoost 首先需要说一说GBDT,它是一种基于boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵C...转载 2020-03-07 13:34:21 · 501 阅读 · 0 评论 -
集成学习个人学习总结
说明:本科普也是借助诸多集成学习文章学习总结而来。集成学习一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用...转载 2020-02-28 16:59:10 · 628 阅读 · 0 评论 -
机器学习——集成算法
机器学习——集成算法(一)集成算法原理1.1 Bagging模型1.2 Boosting模型1.3 Stacking模型(二)集成算法...转载 2020-02-28 16:57:46 · 473 阅读 · 0 评论 -
机器学习---集成学习
一、关于集成学习的概念1.集成学习概念集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是...转载 2020-02-28 16:57:10 · 701 阅读 · 0 评论 -
机器学习——集成算法
本篇基于机器学习(edt:周志华)的集成学习章节,衍生学习多种boosting集成学习算法。集成学习(ensemblelearning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-calssifiersystem)。目前的集成学习方法大致可以分为两大类:•个体学习器间存在强...转载 2020-02-28 16:55:21 · 443 阅读 · 0 评论 -
算法笔记- K均值(K-Means)
前言本系列为机器学习算法的总结和归纳,目的为了清晰阐述算法原理,同时附带上手代码实例,便于理解。目录 k近邻(KNN) 决策树 线性回归 逻辑斯蒂回归 朴素贝叶斯 支持向量机(SVM) 组合算法(Ensemble Method) K-Means 机器学习算法总结 本章主要介绍无监督学习中的k-means,以及简单代码实现。一、算法...转载 2020-02-28 11:58:37 · 922 阅读 · 0 评论 -
模型评估与优化
1.交叉验证法from sklearn.model_selection import cross_val_scoresvc=SVC(kernel='linear')scores=cross_val_score(svc,x,y,cv=6)2.随机拆分和挨个试试from sklearn.model_selection import ShuffleSplit,cross_val_scor...原创 2020-02-28 11:20:16 · 606 阅读 · 0 评论 -
结合sklearn进行特征工程
1 前言该篇博客主要涉及到sklearn.feature_selection 以及其他相关模型,主要介绍了如何利用sklearn进行...转载 2020-02-27 17:37:25 · 885 阅读 · 0 评论 -
分类树和随机数
转载 2020-03-07 14:15:22 · 392 阅读 · 0 评论 -
准确率、精确率、召回率、F1值、ROC/AUC整理笔记
原文链接地址:https://blog.youkuaiyun.com/u013063099/article/details/80964865 加了部分修改对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。一、TP、TN、FP、FN概念首先有关TP、...转载 2020-02-25 16:00:50 · 774 阅读 · 0 评论 -
sklearn 神经网络MLPclassifier参数详解
class sklearn.neural_network.MLPClassifier(hidden_layer_sizes=(100,...转载 2020-02-23 22:51:17 · 6935 阅读 · 0 评论 -
Python中决策树分类器DecisionTreeClassifier参数和经验总结
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf...转载 2020-02-23 00:08:34 · 22109 阅读 · 0 评论 -
详解ROC/AUC计算过程
ROC和AUC定义ROC...转载 2020-02-22 23:05:10 · 1018 阅读 · 0 评论 -
交叉验证stratified k-fold cv与shuffle等常用cv方法
本文参考:https://scikit-learn.org/stable/modules/cross_validation.html...转载 2020-02-22 22:37:09 · 1007 阅读 · 0 评论 -
RF(随机森林)、GBDT、XGBoost算法简介
一、概念RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。二、关系根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者...转载 2020-02-22 17:44:02 · 2034 阅读 · 0 评论 -
机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理)
在线性回归模型中,其参数估计公式为β=(XTX)−1XTyβ=(XTX)−1XTyβ=(XTX)−1XTyβ=(XTX)−1XTyβ=...转载 2020-02-21 23:20:48 · 1393 阅读 · 0 评论 -
[sklearn的一般流程】数据的获取
【sklearn的一般流程】数据的获取1.生成回归数据 make_regression()2.生成分类数据 make_classif...转载 2020-02-20 17:09:58 · 808 阅读 · 0 评论 -
NumPy
NumPy文章目录NumPyNumPy数组对象NumPy数据类型NumPy数组运算NumPy索引和切片NumPy数组组合NumPy数...转载 2020-02-19 23:47:16 · 580 阅读 · 0 评论 -
numpy中的np.c_和np.r_详解
【时间】2018.12.03【题目】numpy中的np.c_和np.r_详解 一、np.c_和np.r_用于连接两个矩阵np.r_中的r是row(行)的缩写,是按行叠加两个矩阵的意思,也可以说是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()。n...转载 2020-02-19 23:42:41 · 1786 阅读 · 0 评论 -
sklearn 快速入门教程
本教程使用于对理论知识具有一定的了解但编码能力稍弱且对sklearn不太了解的同学本文为转载文章,原文地址:https://www.cnblogs.com/lianyingteng/p/7811126.html 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模...转载 2020-02-19 23:06:13 · 494 阅读 · 0 评论 -
sklearn函数汇总
Python笔记--sklearn函数汇总Summer Memories关注他28 人赞同了该文章1. 拆分数据集为训练集和测试集:from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2,rando...转载 2020-02-19 23:00:02 · 3978 阅读 · 0 评论 -
一篇搞定机器学习面试
序言本文尽可能的不涉及到繁杂的数学公式,把面试中常问的模型核心点,用比较通俗易懂但又不是专业性的语言进行描述。希望可以帮助大家在找工作时提纲挈领的复习最核心的内容,或是在准备的过程中抓住每个模型的重点。实战环境说明:Python 2.7 Sklearn 0.19.0 graphviz 0.8.1 决...转载 2020-02-19 22:48:11 · 488 阅读 · 0 评论 -
准确率、精确率、召回率、F1值、ROC/AUC整理笔记
对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。一、TP、TN、FP、FN概念首先有关TP、TN、FP、FN的概念。大体来看,TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是把错的分成了对的,而FN则是把对的分成了错的。(我的记忆方法:首先看...转载 2020-02-19 22:28:40 · 861 阅读 · 0 评论 -
Python—numpy.argsort()
转载 2020-02-13 16:20:10 · 414 阅读 · 0 评论 -
Python NumPy中sum()函数详解 axis与keepdims图解
目录numy.sum()函数定义与说明代码示例、说明及输出axis = 0 或axis = -3axis = 1 或 axis = -2axis = 2或axis = -1axis = (0, 2)axis = (0, 2),keepdims=True总结与扩展经常使用NumPy的小伙伴会遇...转载 2020-02-13 16:09:33 · 2522 阅读 · 0 评论 -
python numpy-tile函数
本文所有代码均可在Pycharm编译运行Python版本:3.6.2俗话说,新手看博客,高手看文档,那我们先按高手的套路走一波文档:help(numpy.tile)Help on function tile in module numpy.lib.shape_base:tile(A, reps)Construct an array by repeating A the number of...转载 2020-02-13 15:54:18 · 392 阅读 · 0 评论 -
Python之Numpy库常用函数大全(含注释)
前言:最近学习Python,才发现原来python里的各种库才是大头! 于是乎找了学习资料对Numpy库常用的函数进行总结,并带了注释。在这里分享给大家,对于库的学习,还是用到时候再查,没必要死记硬背。 PS:本博文摘抄自中国慕课大学上的课程《Python数据分析与展示》,推荐刚入门的同学去学习,这是非常好的入门视频。Numpy是科学计算库,是一个强大的N维数组对象ndarr...转载 2020-02-13 15:53:28 · 429 阅读 · 0 评论 -
[网络安全自学篇] 三十五.恶意代码攻击溯源及恶意样本分析
本文主要结合作者的《系统安全前沿》作业,师姐的论文及绿盟李东宏老师的博客,从产业界和学术界分别详细讲解恶意代码攻击溯源的相关知识。在学...转载 2020-02-05 21:31:28 · 10481 阅读 · 0 评论 -
二十四.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例
这是作者的系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记,特分享出来与博友共勉,希望您们喜欢,一起进步。前文分享了Web...转载 2020-02-05 21:28:04 · 12591 阅读 · 6 评论 -
二十三.基于机器学习的恶意请求识别及安全领域中的机器学习
这是作者的系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记,特分享出来与博友共勉,希望您们喜欢,一起进步。前文分享了Web...转载 2020-02-05 21:22:34 · 3931 阅读 · 0 评论 -
[网络安全自学篇] 十.论文之基于机器学习算法的主机恶意代码
这是作者的系列网络安全自学教程,主要是关于网安工具和实践操作的在线笔记,特分享出来与博友共勉,希望您们喜欢,一起进步。前文分享了Web...转载 2020-02-05 00:05:15 · 2025 阅读 · 0 评论