- 博客(13)
- 收藏
- 关注
原创 大众估值项目
1 为jupyter 添加目录 conda install -c conda-forge jupyter_contrib_nbextensions
2019-11-01 13:41:54
223
转载 机器学习——逻辑回归
1.逻辑回归与线性回归的联系与区别 2.逻辑回归的原理 3.逻辑回归损失函数推导及优化 4.正则化与模型评估指标 5.逻辑回归的优缺点 6.样本不均衡问题解决办法 7.sklearn参数 一 .逻辑回归与线性回归的联系与区别 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都属于广义线性回归模型。 在分类问题中,预测属于某类的概率,可以看成回归问题...
2019-10-18 10:12:33
225
转载 机器学习工程实战
超参数选择 几种参数估计的区别于联系: MLE、MAP、贝叶斯 TODO 余弦相似度(Cos距离)与欧氏距离的区别和联系 监督学习和无监督学习 熵,求投掷均匀正六面体骰子的熵 混淆矩阵、模型度量指标:准确率、精确率、召回率、F1 值等 如何处理数据中的缺失值 介绍一个完整的机器学习项目流程 数据清洗与特征处理 关联规则挖掘的 3 个度量指标:支持度、置信度、提升度 ...
2019-10-17 10:35:36
226
原创 机器学习之XGBOOST全面理解
一:目标函数 训练损失和正则化项两部分 (1)L:代表损失函数,常见的损失函数 平方损失函数: 逻辑回归损失函数: (2)y^ : xgboost是一个加法模型,因此预测得分是每棵树打分之和。 (3)正则项:k棵数的复杂度之和。 第t棵树 第t次迭代驯练的模型是ft(x) 泰勒展开式 x 对应前t-1棵数,^x相当于第t棵树。 定义损失函数关于y’(t-1)的一阶偏导数 gi 和二阶偏导数hi...
2019-10-15 15:03:56
376
原创 机器学习之 决策树、随机森林
一、决策树 选择特征来分割 分割方法:ID3、C4.5、CART 1.ID3:信息增益来选择最优分割 ID3偏向取值较多的属性,例如ID列 2.C4.5:信息增益率选择最优分割 信息增益 / IV 属性A的特征个数越多,IV越大。信息增益率又会偏向较少的特征。C4.5先找出信息增益高于平均水平的属性,再从中选择增益率最高的。 对于连续属性采用二分法,从小到大排序,中间值作为分割点,计算信息增益率,...
2019-10-14 21:47:35
210
原创 python tips(一)
1 python一次连接多个前缀相同的数据库表 coon=pymysql.connect(host="",user="root",passwd="",db="") for i in range(1,10,1): finattprice_2019_="finattprice_2019_"+str(i) sql="select * from"+" "+finattprice_2019_...
2019-10-10 13:59:11
161
原创 Task1 随机森林
随机森林算法梳理 集成学习的概念 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛...
2019-08-07 18:10:26
152
原创 sklearn 随机森林
1概述 1.1集成算法概述 随机森林、GBDT(梯度提升树)、Xgboost等集成算法随处可见,应用广、效果好。 集成算法的目标:考虑多个评估器的建模结果,来获取比单个模型更好的回归或分类 三类集成算法:Bagging(装袋法)、Boosting(提升法)、stacking Bagging(装袋法):随机森林 Boosting(提升法:Adaboost、梯度提升树 1.2sklearn中集成算法的...
2018-11-26 18:32:03
379
原创 CDA LEVEL 2建模分析师(一)
PART 1数据挖掘基础理论(20%) a 数据挖掘概要(2%) 数据挖掘起源、定义、目标 数据挖掘的发展历程 定义: 目标:预测和描述 数据挖掘方法和原理(7%) CRISP-DM:商业理解、数据理解、数据准备、建模、评估、部署 SEMMA :数据挖掘方法论 Sample──数据取样 _ Explore──数据特征探索、分析和予处理 _ Modify──问题明确化、数据调整和技术选择 _ ...
2018-11-24 15:54:57
1026
1
原创 *python LinearRegression建模 笔记(一)
python LinearRegression建模 笔记(一) 主要用到的包: pd.set_option matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import Imputer fro...
2018-11-08 10:58:18
951
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅