
数据分析
文章平均质量分 86
lagoon_lala
越开源, 越幸运
展开
-
数据处理笔记11 类别不平衡处理-抽样方法
目录分层抽样分层抽样示例上采样下采样分层比例/定额抽样原理, 参考:按比例分层抽样和定额抽样的区别? - 知乎(比例)分层抽样是概率抽样的一种,是指先分层再按总体群种中各层的比例随机抽样。定额抽样是非概率抽样的一种,是指分层并事先设定各层的主观配额比例,再进行抽样。举例:调查某高中学生的作息状况,该校高中1000人,高一350人,高二330人,高三320人。比例分层抽样:抽样100,高一35人,高二33人,高三32人。定额抽样(主观因素:调查者可能认为高三作息问题更严重,因此将更多配额事先给了高三):抽样1原创 2022-07-08 16:10:52 · 3426 阅读 · 0 评论 -
HDLSS笔记2进化森林Evolutionary Forest
目录数据情况DemoDemo尝试EF参数Evolutionary Forest "自动特征构建框架(Evolutionary Forest)-可解释性机器学习对比随机森林和Evolutionary Forest直接分类使用Evolutionary Forest构建的特征改进随机森林和XGBoost性能" scikit-learn中的“diabetes”442条样本,特征值10项 Evolutionary Forest:http...转载 2022-04-18 15:16:27 · 653 阅读 · 0 评论 -
归因分析笔记10 PCA特征重构
PCA逆转换实验创建pcaInverseDemo.py进行尝试先试一下调包, 然后对比手刻的代码sklearn的逆转换建立简单矩阵, PCA转换, 输出值 import numpy as np from sklearn import decomposition # 建立简单矩阵 X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) # 将含有2个特征的数据经过PCA压原创 2022-03-19 21:04:30 · 4467 阅读 · 4 评论 -
归因分析笔记6:SHAP包使用及源码阅读
突然发现这篇文章居然被百度文库给盗了, 举报侵权还要我自己打印保证函, 最逗的是, 上传保证函图片还要求开启flash,其心昭然若揭.安装使用示例shap_values()KernelExplainer返回值使用KernelExplainer可视化SHAP医学解释相关论文项目实践堆叠热力图汇总SHAP值原创 2022-03-10 09:35:48 · 16835 阅读 · 4 评论 -
数据处理笔记9:缺失值-多变量插补
目录Missforestycimpute安装使用MissingpySKlearn论文启发:https://doi.org/10.1093/jamiaopen/ooab008缺失值填充: MissForest及其算法流程由于我们的数据集包括分类变量和数值变量的混合,因此我们使用MissForest推算方法. MissForest受益于RF算法中处理缺失值的内置例程[38,39]。在这种推算方法中,对于每个变量,都会考虑对缺失值的初始猜测。然后,根据变量的缺失值数量从原创 2022-02-16 11:37:49 · 3400 阅读 · 0 评论 -
数据处理笔记8:切片
经常用到切片操作, 所以把之前这方面的笔记汇总一下参考: https://blog.youkuaiyun.com/weixin_39861498/article/details/109621657a[start:end:step]逆序[0:4:-1]前两个数字代表范围(取下标0,1,2,3), 最后一个代表步长, -1时倒序取最后几个元素a = [1, 2, 3, 4, 5, 6]a[-1] # 6a[-2:] # [5, 6]a[:-2] # [1, 2, 3, 4]a[-原创 2022-01-31 16:55:12 · 880 阅读 · 0 评论 -
数据处理笔记6:缺失值填充
参考:http://118.31.76.100:100/math/statics_topic/deal-na/缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。常数来填充常常不是一个好方法。最好建立一些模型,根据数据的分布来填充一个更恰当的数值。(例如根据其它变量对记录进行数据分箱,然后选择该记录所在分箱的相应变量的均值或中位数,来填充缺失值,效果会更好一些)原创 2021-12-28 14:28:07 · 13200 阅读 · 8 评论 -
数据处理笔记5:循环读取excel中的各sheet
因为需要读取和处理的sheet表格比较多, 尝试重构并循环读取.之前参考的博客代码有一点问题, 踩坑了, 所以重新整理一篇.参考:https://blog.youkuaiyun.com/weixin_43581124/article/details/108015535这样写要快很多,以前相当于每个sheet都要读一遍整个excel文件,现在总共只需要读一遍excel文件 import pandas as pd def read_excel1(path): data_xl...原创 2021-12-21 11:02:12 · 2352 阅读 · 0 评论 -
数据处理笔记3: 分层采样-k折交叉验证
Demo调试实作交叉验证, 参考:https://github.com/apachecn/hands-on-ml-2e-zh/blob/master/docs/3.mdStratifiedKFold参考: https://blog.youkuaiyun.com/weixin_44110891/article/details/95240937StratifiedKFold用法类似Kfold,但是它是分层采样,确保训练集,验证集中各类别样本的比例与原始数据集中相同。因此一般使用StratifiedKFold原创 2021-12-06 18:23:00 · 3469 阅读 · 0 评论 -
数据处理笔记1:类别不平衡-上采样
类别不平衡imblance problem查找一些资料样本不均讨论:https://blog.youkuaiyun.com/sp_programmer/article/details/48047101上采样、下采样、代价敏感代价敏感:设计objective function的时候给不同misclassification的情况不同的relative weights。也就是说给从小数量的样本被分成大数量的样本更大的penalty正样本样本绝对数很小。需要扩散正样本方法Synthetic Mi原创 2021-11-29 21:22:20 · 4656 阅读 · 0 评论 -
Matplotlib作图笔记
目录输出线性方程设置线条形态设置坐标轴折线图散点图数组添加元素“莫烦”的“Matplotlib Python画图教程”https://mofanpy.com/tutorials/data-manipulation/plt/basic-usage/输出线性方程 #导入模块 import matplotlib.pyplot as plt import numpy as np #使用np.linspace定义x:范围是(-1,1);个数是50.转载 2021-04-17 00:47:53 · 358 阅读 · 0 评论