- 博客(14)
- 收藏
- 关注

原创 集成学习:通过数学推导AdaBoost的训练误差可以无限接近于0,以及其树的权重可以推导出来
集成学习,将多个独立分类器(此处称为基学习器)组合在一起,共同完成任务。如bagging(减小方差)、boosting(偏差)或stacking(改进预测)其中Boosting,主要算法有AdaBoost/GBDT/Xgboost/LightGBM关于Boosting的两个核心问题: 1)在每一轮如何改变训练数据的权值或概率分布? 通过提高那些在前一轮被弱分类器分错样例的权值,减小前一...
2020-02-11 20:42:48
1115
1

原创 机器学习:逻辑回归总结(上)
首先逻辑回归是一种有监督的分类问题,名字中含有回归二字,是因为在多年前关于回归与分类的定义与现在有所不同,这一历史原因造成逻辑回归可以视为广义的线性模型在因变量y服从二元分布时的一种特殊情况;在使用最小二乘法求解线性回归时,认为因变量y服从正态分布为了能够得到最终的分类结果,我们引入sigmoid函数将利用回归模型得到的数值映射到(0,1)区间,其后通过比较映射结果与给定阈值的大小关系得到最终...
2019-12-27 15:23:08
314

原创 sigmoid函数手推求导
sigmoid函数因其连续单调且可微等特点被广泛运用,如逻辑回归sigmoid函数图像如下(图片来自百度百科):以下是sigmoid函数的求导步骤,并得到其导函数与自身的关系...
2019-12-27 14:43:30
371

原创 机器学习:模型评估与性能度量总结
#1、常见术语说明过拟合:模型由于学习的“太好”,在训练集上表现很好(训练误差小),而在新样本上表现很差(泛化误差大)。欠拟合:与过拟合相对的概念,模型对训练集还没有完全学习好,在训练集上就表现不好(训练误差大)。误差:模型预测值与真实值之间的差异。训练误差(经验误差):模型在训练集上的误差。泛化误差:模型在新样本上的误差。#2、模型评估方法利用训练样本(“训练集”)之外的测试样本(...
2019-12-20 16:47:35
3407

原创 机器学习:随机森林RF总结
1、随机森林(Random Forest,简称RF),顾名思义就是以树为基本单位的集成学习模型。每棵树都会得到一个分类结果,进行投票,森林最终选择投票最多的类别作为最终结果。随机体现在,用于训练单个决策树的样本与特征是通过随机选择产生。其中样本的抽取多选择有放回的随机抽取。随机抽取的优点在于极大地避免了因为决策树之间过高的的相似性从而导致的过拟合问题。2、决策树的生长模式:如果训练集中的样本数...
2019-12-19 17:43:08
2242

原创 机器学习:决策树总结
决策树是一种基于树状结构进行决策的策略,是一种有监督的机器学习算法决策树优点: 简单易懂 易解释 可视化 适用性广 既可以处理离散值也可以处理连续值(ID3只能处理离散值) 可用于寻找重要特征变量 不需要提前归一化预处理 使用决策树预测的代价是O(log2m)O(log_2m)O(log2m), m为样本数。决策树缺点: 容易过拟合。可以通过设置节点最少样...
2019-12-18 17:59:13
909

原创 机器学习之:SVM总结
机器学习之:SVM总结SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。在解决小样本、非线性及高维模式识别中表现出许多特有优势,多用于解决二分类问题SVM(Support Vector Machine即支持向量机)核心思想,即构建一个超平面,使得该超平面能将不同类别的样本间隔开(单纯只是满足将不同类别样本隔开的超平面可能有很...
2019-12-18 12:18:40
1460

原创 【python可视化方案】pyecharts + Django 框架
背景:基于对于可视化的巨大需求以及成本因素,利用pyecharts + Django 的可视化方式,显然是一种比较优的选择 通过可视化可寻找:模式、关系和异常环境:强迫症患者,历来都是用最新版本 Django:2.1.0 python:3.x (win10是3.7,Ubuntu是3.5) 操作系统环境:win10与Ubuntu1、Django安装: Django是利用python...
2019-12-13 18:30:16
4182

原创 Linux环境部署kettle
本博客主要是记录了鄙人第一次在Linux环境部署kettle的经历,以及其中遇到的部分问题,不一定很全面,仅供参考交流 博客内容主要分为:JDK安装、kettle安装、安装JDK与kettle可能遇到的问题、以及定时执行job等一、JDK安装(注意版本) 首先检测是否已经安装,利用java -version如果已安装,则忽略JDK安装步骤 其次还需要关注,其版本是否兼容 JDK安装...
2018-08-08 23:22:58
15501
原创 集成学习:XGBoost算法目标函数推导
XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,GBDT(gradient boosting decision tree)的改进XGBoost的核心算法思想:1、不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。2、当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的...
2020-02-12 11:02:15
644
原创 python报错:Do not support special JSON characters in feature name
最近在做一个lightGBM模型时,出现报错:LightGBMError:Do not support special JSON characters in feature name通过排除,发现错误原因:在数据集的特征名称中出现了类似’Unnamed: 0’的名称,处理后,程序可正常运行。所以猜测这可能由于数据集的特征名称中含有特殊字符导致的,至少我目前遇到的问题是这样...
2019-12-30 17:21:45
10698
12
原创 kettle报错:Binary_file_(standard input) matches
在进行数据迁移时报错:Binary file (standard input) matches环境:Ubuntu 16.04.2kettle:7.0具体信息如下所示:
2019-02-27 15:00:40
613
1
原创 kettle发送的邮件附件无法预览,也无法下载
最近因为一些工作上的需求,需要通过kettle实现跑数据,并且最终把数据结果通过邮件发送给指定的同事!但是在这个过程中出了点问题,即实现了邮件发送附件的功能,但是却无法打开邮件中的附件!QQ邮箱打开附件提示如下:(尝试过多个浏览器,均是如此)kettle配置如下:首先通过转换任务生成Excel其次利用作业(.job)实现邮件发送,并携带附件邮件正文内容均正常,且实现了附件发送...
2019-01-21 10:45:08
1015
转载 Navicat Premium 12.0.23安装与激活
本文介绍Navicat Premium 12.0.24的安装、激活与基本使用。说明:博主所提供的激活文件理论支持Navicat Premium 12.0.16 - 12.0.24简体中文64位,但已测试的版本为Navicat Premium 12.0.22、12.0.23和12.0.24简体中文64位。 说明:博主所提供的压缩包格式均为RAR5,即WinRAR 5.0以上的版本才能正常解压,...
2018-09-16 10:47:41
586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人