
数据处理
文章平均质量分 83
数据评估(质量&整洁度等),缺失/异常值处理,数据清洗等
萝 卜
这个作者很懒,什么都没留下…
展开
-
joblib 保存训练好的模型并快捷调用(附源数据)
用已知数据集训练出一个较为精准的模型是一件乐事,但当关机或退出程序后再次接到 “ 用新的格式相同的数据来进行预测或分类 ” 这样的任务时;又或者我们想把这个模型发给同事并让TA用于新数据的预测…难道又要自己或他人重复运行用于训练模型的源数据和代码吗?所以这篇推文将展示如何仅用短短的两行代码,便能将优秀的模型下载并加载用于新数据的简便快捷的操作,让效率起飞????注:本文数据与源代码可空降文末获取~joblib 下载/加载最佳模型下载最佳模型反复调优后,我们通常能够获得一个相对精准的模型。原创 2020-11-02 12:15:10 · 3253 阅读 · 1 评论 -
Python Pandas 分类/连续变量的探索性数据分析(附源码与数据)——pandas 描述性统计,交叉表,数据透视表
这是趣味统计的第 1 期分享作者 l 萝卜正式开始建模与处理数据前,对数据进行探索并有一个初步的认识非常重要,本文将围绕变量探索,展示分类、连续变量,以及两种类型变量结合的探索方法,并展示 Python Pandas 数据处理与可视化中的一些快捷常用骚操作~注:本文数据与源代码在公众号 “ 数据分析与商业实践 ” 后台回复 “ 变量探索 ” 获取~~分类变量01 一个分类变量一个分类变量的分析方法可考虑频次和百分比,用饼图或者柱状图表示都可以我们也可以通过设置画布布局来同时显示两原创 2020-09-07 20:51:23 · 2759 阅读 · 0 评论 -
Python Pandas 选出指定类型的所有列,统计列的各个类型的数量并用于探索性数据分析(附数据与源码)
更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”通过本文,你将知晓如何利用 Pandas 选出指定类型的所有列用于后续的探索性数据分析,这个方法在处理大表格时非常有用(如列非常多的金融类数据),如果能够较好的掌握精髓,将能大大提升数据评估与清洗的能力,为后续建模提供高质量的数据。这个技巧并没有什么原理性的东西,所以这里直接呈现代码。数据读入统计列的各个类型的数量选出类型为 object 的所有列在机器学..原创 2020-07-30 14:05:04 · 5232 阅读 · 0 评论 -
Pandas 查找,丢弃列值唯一的列 (附源数据与代码)
更多包含丰富源数据源代码的 Pandas 高阶操作,数据可视化,以及商业数据分析实战案例,尽在公众号 “ 数据分析与商业实践 ”前言数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如:已支付,已支付,已支付…这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。代码实现上代码前先上个坑吧,数据列中的空值 NaN 也会被..原创 2020-07-29 14:04:34 · 1025 阅读 · 0 评论 -
Python 基于决策边界的随机森林调优(决策树亦适用)
你的调参侠已上线,简单通俗,实操性强原创 2020-07-26 12:10:33 · 1749 阅读 · 0 评论 -
Python 实现不平衡采样 | SMOTE,Tomek Link,SMOTETomek 综合采样
本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:原理介绍Python实战本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。原理介绍与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的.原创 2020-07-13 21:02:35 · 19961 阅读 · 6 评论 -
原理 + 代码 | 手把手教你基于不平衡数据的 Python 反欺诈模型实战
本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:原理介绍Python实战本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。原理介绍与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的.原创 2020-07-13 18:44:32 · 1383 阅读 · 2 评论 -
多元线性回归模型精度提升的两种经典方法 -- 虚拟变量&方差膨胀因子
原理简单,实现优雅,效果拔群原创 2020-05-28 20:39:39 · 10795 阅读 · 1 评论 -
多元共线性检测 -- 方差膨胀因子(Python 实现)
十分经典,原理简单,实现优雅,效果拔群。原创 2020-05-24 17:47:04 · 14116 阅读 · 0 评论 -
Python Pandas 快速插入列,快速筛选数据:强大到飞起的 eval 和 query 函数
引言 在使用 Python 的 Pandas 库处理数据时,我们时常需要添加一些新列,时不时添加一列也就算了,同时添加多列(毫无规律的,不使用循环)时是真的气人,还有就是快速选择符合条件的数据框有时也会成为令人难受。业务需求 & 效果实现快到飞起的 eval()笔者将效果实现分成了几个版本低端累到不能呼吸版 最基础的列操作了中端客可喘气版 这个版本借助了...原创 2020-03-02 10:57:00 · 1347 阅读 · 0 评论 -
个人理解:利用Python数据分析-----算术与数据索引对齐
@[TOC] 个人理解:Python数据分析-----算术与数据索引对齐写作缘由:使用pandas库的Series与DataFrame时,想到如果索引数或列数不同,且要进行合并或者拆分时会不会出现NaN值并顺带影响后续的计算操作,今学习完算术与数据对齐的章节,分享一下个人的理解。准备工作代码示例来源于大名鼎鼎的O’reilly动物的《利用Python进行数据分析》Jupyter not...原创 2019-02-10 11:49:04 · 562 阅读 · 0 评论 -
Python 珍藏函数超详解:随机抽样,分层抽样,系统抽样方法汇总
引言 抽样调查在 统计学 与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中也是高频刚需,而 Python 并没有专有的抽样方法库,所以将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且精确。行文思路 全部源代码(根据填入参数选择不同的抽样方法) --》 对每一方法进行单独使用并附上效果图全部源代码(含注释)# -----------------...原创 2020-02-11 11:22:31 · 6749 阅读 · 0 评论 -
Python map, apply, transform汇总(打标签法初阶到高阶)
引言 根据数据的某列进行打标签操作在数据分析领域极度常用,对于一些较为复杂的打标签方法,Python 与 SQL 都能很好的实现,这篇针对 Python,主要用到 map,apply 与 transform 等函数,从初阶到高阶,体会方法的异同优劣。 与此同时,SQL 的打标签方法除了在业务上常用,也是一个面试的小考点,具体见以下两篇文章。SQL 面试经典 & 业务实战(一)...原创 2020-02-09 12:10:19 · 992 阅读 · 9 评论 -
Python数据分析:异常值检验的两种方法 -- Z 分数 & 上下分位点(放入自写库,一行代码快速实现)
引言 数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法和上下截断点法。本文即使效果展示(Jupyter notebook)一行代码快速绘图查看房价分布情况如何一步到位的画出复杂精美的图片可以参考这篇博文Python 数据可视化:seaborn displot 正态分布曲线拟合图代码注释超详解(放入自...原创 2020-02-19 16:10:13 · 6841 阅读 · 0 评论 -
Python 数据分析:数据评估 -- 影响分析效率的细节坑(质量&整洁度评估)
引言 进行数据处理前,精准有效的评估数据的一些基本信息如整洁度和质量等尤为重要。下面的几行代码肯定已经被各位数据分析师敲烂了。df.info()df.head()df.describe() 至于每行代码的作用想必已不必多说。df.info() 信息概览,数据数量,列属性,初步缺失值查看等head(), tail(), sample() 随即查看一些数据describe()...原创 2020-02-18 16:04:30 · 628 阅读 · 0 评论