
机器学习
文章平均质量分 92
xiaotian127
这个作者很懒,什么都没留下…
展开
-
xgboost原文翻译及学习
目录参考文章:1、参考文章:1.1参考文章:xgb原论文阅读翻译2、理解:1、xgb作为一个加法串行的树模型,每一棵子树都是基于上一棵树的残差来进行训练;其计算公式是不包含权重项的(面试被问到过,主要是因为GBDT模型的加法公式中是包含权重项的);其计算公式如下所示:2、损失函数主要是通过损失函数来更新每棵树的叶子节点上的权重(这个大家应该注意一下,我是反复看了很多文章,最终在看原论文时才注意到),因为每棵树的叶子结点都会给划入此节点的样本一个“分数”,所以每次训练得到.原创 2021-03-29 19:29:27 · 706 阅读 · 1 评论 -
GBDT算法梳理
1.前向分布算法考虑加法模型在给定训练数据及损失函数L(y,f(x))的条件下, 学习加法模型f(x)称为经验极小化即损失函数极小化问题:上述问题是一个复杂的优化问题. 前向分布算法(forward stagewise algorithm)求解这一优化问题的想法是: 因为学习的是加法模型, 如果能够从前向后,每一步只学习一个基函数及其系数,逐步逼近优化目标函数,那么就可以简化优化的复杂度....原创 2020-12-31 14:12:29 · 375 阅读 · 0 评论 -
KNN的基本原理及应用
K nearest neighborKNN,全名k近邻算法。KNN的核心思想是先计算每个样本与单个特征空间上的距离(距离可有欧式距离、曼哈顿距离、马氏距离等,详见附录一),再找出与每个样本距离最近的k个点,最后将其归类为k个邻居中类别最多的那一类;适用场景:一般多用于分类任务,也可用来处理回归任务。优点:原理简单,易于理解; 对异常值不敏感; 对数据的特征类型没有明确的要求;缺点:样本不平衡问题,容易将样本分入类别中样本较多的那一类; 特征较多时,计算复杂度高,空间复杂度高;原创 2020-11-07 22:42:07 · 6015 阅读 · 0 评论 -
先验概率和后验概率的定义
话不多说,我因为在学习朴素贝叶斯的时候有点分不清楚先验概率、后验概率,所以就网上找了一些资料,大家各有各的理解,但感觉还是不太能从定义上区分,所以就有了下面这张图:图里面说的还是比较清晰的,大家有不理解的地方可以沟通交流嘛。...原创 2020-10-31 21:10:57 · 1174 阅读 · 0 评论 -
house-prices
分析报告探索性数据分析1 查看缺失值特征工程建立模型探索性数据分析在这一部分主要是对训练集的81个features进行了分析,以对数据有一个初步的了解,方便后续进行特征工程和模型的建立。在进行数据探索之前,先了解一下训练集和测试集的样本量,训练集的shape为(1460, 81) ,测试集的shape为(1459, 80),测试集比训练集少了“SalePrice”目标值这一列;此外也统计了训...原创 2019-11-04 19:50:40 · 1165 阅读 · 0 评论 -
机器学习模型常用技巧(持续更新中……)
1、网格搜索的套路函数(以决策树为例):from sklearn.model_selection import GridSearchCV, StratifiedKFoldfrom sklearn.tree import DecisionTreeClassifierdef check_model(x,y): ##以决策树为例## classifier = DecisionT...原创 2019-07-24 13:28:20 · 488 阅读 · 0 评论 -
pyspark读写数据等(数据处理妙招)(持续更新中……)
1、读取数据,之后再把数据写入csv文件中from pyspark.sql import SQLContextfrom pyspark import SparkContextsc = SparkContext() # 只能运行一次sqlContext = SQLContext(sc)# 读取数据raw_data = sqlContext.read.format('com...原创 2019-04-07 18:26:41 · 1827 阅读 · 0 评论 -
黑马机器学习之第一天
一、机器学习简介(一)简单介绍1、“人工智能之父”——图灵图灵测试(1950)2、马文·李·闵斯基:把人工智能推向了全世界;3、人工智能(1950—)------》机器学习(80年代)------》深度学习(2010年以后)深度学习:图像识别、自然语言处理(可以用程序写一篇报导)、预测(如信贷需求预测、店铺销量预测)、传统预测影响人工智能的两个因素:①硬件;②数据;③算法(☆...转载 2019-02-03 10:38:36 · 1740 阅读 · 8 评论