
数据挖掘
每天进步一點點
把时间花在感兴趣的事情上,保持终身学习。
展开
-
sklearn随机森林模型参数解释
sklearn随机森林模型关键参数解释n_estimators 随机森林决策树的数目,n_estimators越大越好,但占用的内存与训练和预测的时间也会相应增长,且边际效益是递减的,所以要在可承受的内存/时间内选取尽可能大的n_estimators。而在sklearn中,n_estimators默认为10。criterion gini or entropy 属性划分计算方式,gini系数和信息熵;splitterbest or random前者是在所有特征中找最好的切分点,后者原创 2020-08-02 17:18:04 · 2622 阅读 · 0 评论 -
python 线性回归分析模型检验标准--拟合优度详解
转载自 : 脚本之家建立完回归模型后,还需要验证咱们建立的模型是否合适,换句话说,就是咱们建立的模型是否真的能代表现有的因变量与自变量关系,这个验证标准一般就选用拟合优度。拟合优度是指回归方程对观测值的拟合程度。度量拟合优度的统计量是判定系数R2。R2的取值范围是[0,1]。R2的值越接近1,说明回归方程对观测值的拟合程度越好;反之,R2的值越接近0,说明回归方程对观测值的拟合程度越差。拟合优度问题目前还没有找到统一的标准说大于多少就代表模型准确,一般默认大于0.8即可拟合优度的公式:R^2 = 1转载 2020-06-28 18:11:40 · 14713 阅读 · 0 评论 -
Pandas数据分析常用方法
Pandas数据分析常用方法1、读取数据pd.read()指定索引列eg1:# index:指定索引,columns:指定列名pd.DataFrame(np.arange(12,24).reshape(3,4),index=['a','b','c'],columns=['w','x','y','z'])eg2:catering_sale = "catering_sale.xls"# 读取数据,指定"日期"列为索引列(DataFrame所有的Series共用一个列索引)原创 2020-06-27 10:41:34 · 860 阅读 · 0 评论