- 博客(30)
- 资源 (1)
- 收藏
- 关注
原创 深度学习简单概述
理论上来说,参数越多的模型复杂度越高、容量越大,这意味着它能完成更复杂的学习任务。但复杂模型的训练效率低,易陷入过拟合。随着云计算、大数据时代的到来,计算能力的大幅提高可以缓解训练的低效性,训练数据的大幅增加可以降低过拟合风险。因此,以深度学习(Deep Learning,DL)为代表的复杂模型迎来关注。深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:(1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)
2024-06-09 22:41:26
1045
原创 梯度提升决策树(GBDT)
GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。
2024-06-09 19:50:14
1959
原创 集成学习概述
集成学习(Ensemble learning)就是将多个机器学习模型组合起来,共同工作以达到优化算法的目的。具体来讲,集成学习可以通过多个学习器相结合,来获得比单一学习器更优越的泛化性能。集成学习的一般步骤为:1.生产一组“个体学习器(individual learner)”;2.用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生。
2024-06-08 20:51:04
1272
原创 常见机器学习概念
损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差,度量模型一次预测的好坏。代价函数(Cost Function)=成本函数=经验风险:是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均,度量平均意义下模型预测的好坏。目标函数(Object Function)=结构风险=经验风险+正则化项=代价函数+正则化项:是指最终需要优化的函数,一般指的是结构风险。正则化项(regularizer)=惩罚项(penalty term)。
2024-06-07 23:28:17
1008
原创 常见机器学习的原理及优略势
线性回归(Linear Regression)是一种基本的回归算法,它通过拟合一个线性模型来预测连续型目标变量。线性回归模型的基本形式是:y = w1 * x1 + w2 * x2 + … + wn * xn + b,其中y是目标变量,x1到xn是特征,w1到wn是模型参数(权重),b是截距项。线性回归的目标是找到一组权重和截距,使得预测值与实际值之间的误差最小。为了实现这一目标,线性回归使用了最小二乘法(Least Squares Method)来最小化预测值与实际值之间的平方误差。
2024-06-07 16:04:31
1256
原创 逻辑回归及python实现
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
2024-06-06 22:45:33
1756
原创 特征工程及python实现
将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便于后续的使用从特征集合中筛选出一组最具统计意义的特征子集,原则:获取尽可能小的特征子集,不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等特点。
2024-06-05 22:33:24
1114
原创 模型评价指标
ROC曲线: 与前面的P-R曲线相似,根据分类器的预测结果从大到小对样例进行排序,逐个把样例加入正例进行预测,每次计算出TPR和FPR,分别以它们为横、纵坐标作图,就得到了 “ROC曲线”,ROC曲线的纵轴是“真正例率” (True Positive Rate,简称 TPR),横轴是“假正例率”一(False PositiveRate,简称FPR)如:一个总样本中,正样本占90%,负样本占10%,样本是严重不平衡的,此时我们只需要将全部样本预测为正样本就可得到90%的高准确率。
2024-06-05 17:35:25
1553
原创 银行风控建模
好坏样本的定义需要根据实际的业务需求进行界定,而不是存在逾期就界定为坏样本(由于收益与风险的正比关系,银行为了找到平衡,不会认为所有发生过逾期的客户都是坏客户,并且“适当”的逾期不仅不会带来损失,反而带来了可观的逾期利息收入),所以对于银行来说,他所关注的坏客户是坏到某一程度,也就是逾期等级较高且不还款的客户。Vintage分析(账龄分析)用于确定合适的表现期,即确定有多久表现期的客户能纳入模型。(随着账龄的变化,贷款逾期的变化情况,贷款逾期趋于稳定后,则可作为表现期,比如经过6个月);
2024-06-05 15:34:14
5698
原创 建模常见问题处理
通过解决样本不均衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏本质特征的模型。可以将不均衡解决方法归结为:通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化,其中数据增强、代价敏感学习及采样+集成学习是比较常用的,效果也是比较明显的。其实,不均衡问题解决也是结合实际再做方法选择、组合及调整,在验证中调优的过程。
2024-06-04 16:04:59
1483
原创 python数据可视化
依赖numpy 库;可自定义线条的颜色和样式,可在一张绘图纸上绘制多张小图,可在一张图上绘制多条线,可以很方便地将数据可视化并对比分析;可以绘制多种形式的图形,包括线图、直方图、饼图、散点图等;应用最广的是matplotlib.pyplot模块;
2024-06-03 17:24:10
1233
2
原创 python实现描述统计
通过对DataFrame对象调用groupby()函数返回的结果是一个DataFrameGroupBy对象,而不是一个DataFrame或者Series对象。aggregate函数不同于apply,前者是对所有的数值进行一个聚合的操作,而后者则是对每个数值进行单独的一个操作。调用max()、count()、std()等,返回的结果是一个DataFrame对象。也可调用max()、count()、std()等,返回一个DataFrame对象。可与聚合函数aggregate/agg一起使用。
2024-05-31 15:50:17
692
原创 python连接数据库
pymysql 和 mysqlclient 目前是python连接mysql 的主流方式。mysqlclient 速度比pymysql 更快;pymysql更加简单易使用。
2024-05-28 16:01:08
1329
原创 数据转dataframe
将字典的keys和values分别作为了DataFrame的两列。最主要的是reset_index().rename()方法,将作为index的keys变为DataFrame中的一列。例如:month是一个series对象,它的index为日期,values为数量,下面将这两列都转换为DataFrame的columns。最后输出的结果是以字典的keys作为columns。将Series的index也变为一列的方法。需要注意的是这种方法需要先将字典变为。
2024-05-27 18:45:58
1341
1
原创 第四章 排序:智能收件箱
library(tm)library(ggplot2)library(dplyr)library(reshape2)library(tidyr)library(lubridate)data.path<-'D:\\ML_for_Hackers-master\\03-Classification\\data\\'easyham.path<-paste0(data.path,'easy_ham
2017-11-26 23:22:02
10122
转载 转载
机器学习常见算法个人总结(面试用)By Kubi Code 发表于 2015-08-16文章目录1. 朴素贝叶斯1.1. 工作原理1.2. 工作流程1.3. 属性特征1.4. Laplace校准(拉普拉斯校验)1.5. 遇到特征之间不独立问题1.6. 优缺点2. 逻辑回归和线性回归2.1. 梯度下降法2.2. 其他优化方法2.3. 关于LR的过拟合问题:2.4. 关于LR的多分类:softma
2017-06-14 11:35:47
446
原创 Oracle语句记录
并:union和union all交:intersect差:minus日期格式设定:select to_char(time,'yyyy-mm-dd') from table_name表字段赋值:update table_name t set t.字段名=regexp_replace(字段1,'@+','')update table_name set 字
2017-06-12 16:24:18
413
原创 梯度下降法
一、方向导数与梯度1.1 方向导数现在我们来讨论函数在一点沿某一方向的变化率问题.定义 设函数在点的某一邻域内有定义.自点引射线.设轴正向到射线的转角为(逆时针方向:0;顺时针方向:0),并设'(+△,+△)为上的另一点且'∈.我们考虑函数的增量(+△,+△)-与、'两点间的距离的比值.当'沿着趋于时,如果这个比的极限存在,则称这极限为函数在点沿方向的方向导数,记作,即
2017-05-23 12:34:28
3702
转载 机器学习中常用的矩阵求导公式
原文地址 : 机器学习中常用矩阵求导问题 作者:MachineLearner的博客矩阵求导好像读书的时候都没学过,因为讲矩阵的课程上不讲求导,讲求导的课又不提矩阵。如果从事机器学习方面的工作,那就一定会遇到矩阵求导的东西。维基百科上:http://en.wikipedia.org/wiki/Matrix_calculus , 根据Y与X的不同类型(
2017-04-19 22:59:09
1549
原创 决策树—续
最终模型的好坏与模型的优化关系很大,而对决策树性能的优化中剪枝是重要的一步。另外现实的数据不会是理想的,当出现连续变量和缺失值时,我们该怎么处理呢?另外对于一个很复杂的模型,会有很大的时间开销,这时我们可以考虑利用属性的线性组合来对模型进行训练,从而得到一个更简化和合理的模型。
2017-04-15 15:50:52
1626
原创 模型评估与选择----第一部分
周志华机器学习第二章笔记一、经验误差与过拟合训练误差(经验误差):学习器在训练集上的误差。泛化误差:学习器在新样本上的误差。欠拟合比较容易克服,如在决策树学习中扩展分支,在神经网络学习中增加训练轮数等;而过拟合则无法彻底避免。二、评估方法测试集和训练集的划分选择留出法交叉验证法自助法1、留出法将数据集D划分为两
2017-04-10 22:10:41
728
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人