
Python数据科学
文章平均质量分 94
以Python为核心语言,专攻数据科学技术
Python数据科学
东哥起飞,《100天风控专家》原创作者
展开
-
还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师前言当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:“快速,灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单又直观。”我们知道pandas的...原创 2019-02-12 20:19:56 · 5948 阅读 · 1 评论 -
LightGBM+OPTUNA超参数自动调优教程(附代码框架)
大家好,我是帅东哥。原创系列持续更新,欢迎微信搜一搜「 Python数据科学」阅读机器学习系列文章。最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。关于LightGBM不多说了,之前分享过很多文章,它是在XGBoost基础上对效率提升的优化版本,由微软发布的,运行效率极高,且准确度不降原创 2021-09-12 13:51:55 · 6894 阅读 · 5 评论 -
Toad:基于 Python 的标准化评分卡模型
大家好,我是东哥。在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。区别于xgb等机器学习模型,评分卡使用逻辑回归,之所是还在使用时因为它属于广义线性回归,在特征的解释性上非常的强。本次和大家分享一个开源的评分卡神器toad。从数据探索、特征分箱、特征筛选、特征WOE变换、建模、模型评估、转换分数,都做了完原创 2021-07-31 18:34:57 · 8140 阅读 · 2 评论 -
基于 Python 的 8 种常用抽样方法
大家好,我是东哥。今天来和大家聊聊抽样的几种常用方法,以及在Python中是如何实现的。抽样是统计学、机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到。所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本。上面所说的都是以概率为基础的,实际上还有一类非概率的抽样方法,因此总体上归纳为两大种类:概率抽样:根据概率理论选择样本,每个样本有相同的概率被选中。非概率抽样:根据非随机的标准选择样本,并不是每个样本都有机会被选原创 2021-06-26 22:50:58 · 6045 阅读 · 5 评论 -
再见 VBA!神器工具统一 Excel 和 Python
作者:东哥起飞大家好,我是东哥。经常给大家推荐好用的数据分析工具,也收到了铁子们的各种好评。这次也不例外,我要再推荐一个,而且是个爆款神器。Excel和Jupyter Notebok都是我每天必用的工具,而且两个工具经常协同工作,一直以来工作效率也还算不错。但说实在,毕竟是两个工具,使用的时候肯定会有一些切换的成本。最近,在逛GitHub突然发现了一款神器「PyXLL-Jupyter」,它可以完美将Jupyter Notebook嵌入到Excel中!是的,你没听错,使用它我们就可在Excel..原创 2020-12-29 11:39:24 · 6504 阅读 · 10 评论 -
太香了,墙裂推荐3个Python数据分析EDA神器!
作者:东哥起飞EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍。1. Pandas_Profiling这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。首先,我们需要安装该软件包。# 安装Jupyter扩展widget jupyter nbextension enable --py widgetsnbextension# 或者通过conda安装conda e..原创 2020-11-13 08:33:52 · 724 阅读 · 0 评论 -
安利一个Python大数据分析神器 Dask!
作者:东哥起飞对于Pandas运行速度的提升方法,之前已经介绍过很多回了,里面经常提及Dask,很多朋友没接触过可能不太了解,今天就推荐一下这个神器。1、什么是Dask?Pandas和Numpy大家都不陌生了,代码运行后数据都加载到RAM中,如果数据集特别大,我们就会看到内存飙升。但有时要处理的数据并不适合RAM,这时候Dask来了。Dask是开源免费的。它是与其他社区项目(如Numpy,Pandas和Scikit-Learn)协调开发的。官方:https://dask.org/Dask.原创 2020-11-01 23:41:22 · 928 阅读 · 1 评论 -
Python数据分析基础: 异常值检测和处理
作者:东哥起飞公众号:Python数据科学上一篇分享了关于数据缺失值处理的一些方法,链接如下:【Python数据分析基础】: 数据缺失值处理本篇继续分享数据清洗中的另一个常见问题:异常值检测和处理。1 什么是异常值?在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预.原创 2020-10-31 22:05:31 · 27537 阅读 · 0 评论 -
Python数据分析基础: 数据缺失值处理
作者:东哥起飞公众号:Python数据科学圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的,有时候它的意义会在某种程度上会胜过模型算法。本篇开始分享如何使用Python进行数据分析,主要侧重介绍一些分析的方法和技巧,而对于pandas和numpy等Pyhon计算包的使用会在问题中提及,但不详细介绍。本篇我们来说说面对数据的缺失值,我们该如何处理。文末有.原创 2020-10-31 21:56:01 · 10369 阅读 · 0 评论 -
Bong!5 款超牛逼的 Jupyter Notebook 插件!
作者:东哥起飞本次东哥分享三个高效的Jupyter Notebook插件,每个都很实用。1、Scratchpad这个插件非常有用,我们做数据分析EDA或者特征工程时经常要各种尝试,而不是要真正的运行cell代码。这个时候在同一个notebook里来回运行就非常容易乱,找不到自己想要的那个对的代码了。当然,可以注释,不过也比较不好管理。使用这个插件可以在当前内核上运行代码,而不必在实际代码之间不断添加新单元以进行实验或计算。使用 Shift + Enter 打开便签本,然后通过 Ctrl + B.原创 2020-10-28 23:54:12 · 1044 阅读 · 0 评论 -
再见,可视化!你好,Pandas!
来源:Python数据科学作者:东哥起飞用Python做数据分析离不开pandas,pnadas更多的承载着处理和变换数据的角色,pands中也内置了可视化的操作,但效果很糙。因此,大家在用Python做数据分析时,正常的做法是用先pandas先进行数据处理,然后再用Matplotlib、Seaborn、Plotly、Bokeh等对dataframe或者series进行可视化操作。但是说实话,每个可视化包都有自己独特的方法和函数,经常忘,这是让我一直很头疼的地方。好消息来了!从最新的pand..原创 2020-10-16 09:43:44 · 475 阅读 · 0 评论 -
安利 5 个拍案叫绝的 Matplotlib 骚操作!
Python数据科学 公众号首发作者:东哥起飞大家都知道,Matplotlib是Python的可视化库,功能很强,可以绘制各种图。一些常规用法前不久分享过Matplotlib官方出品的cheatsheet:Matplotlib官方小抄手册公开,配套可视化代码已打包!但是!今天我们不走寻常路,专挑几个贼骚的操作分享下.1. Span SelectorSpan Selector是Matplotlib中的鼠标小部件,widgets是用于包含一些交互功能的python对象。Span Selector可.原创 2020-09-29 21:45:55 · 336 阅读 · 1 评论 -
Matplotlib官方小抄手册公开,配套可视化代码已打包!
Matplotlib作为强大的数据可视化工具,一直备受Python数据爱好者们追捧。网络上虽有零零散散的教程,但并不是非常的系统和直观,往往我们遇到一些问题的时候还是要去百度或者到官网上寻求方法。最近Matplotlib在GitHub上公开了官方的cheatsheet和所有用法的使用代码。看了下,用法基本覆盖了我们正常大部分使用需求,以后拿着这个小抄就可以搞定一切了,实在太香!链接:https://github.com/matplotlib/cheatsheets所以东哥第一时间把这个开源资..原创 2020-07-11 18:02:34 · 326 阅读 · 0 评论 -
从机械转行数据科学,吐血整理了这些白嫖的学习网站
作者:东哥起飞Python数据科学大家好,我是东哥。前方高能,准备开启收藏夹吃灰模式。本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。东哥当年从机械转行也从这些学习网站收获很多。下面开始进入正题。一、Kaggle什么是Kaggle?kaggle是全球最先也是目前规模最大的数据科学竞赛组织了。之所以这么受欢迎,是因为很多大的公司奉献出自家真实的数据给kaggle,提出真实业务场景面临的痛点,需要数据科学上的解决方案。我个人觉得是非常有意思的,因为.原创 2020-06-20 09:42:54 · 2036 阅读 · 0 评论 -
太香了!墙裂推荐 6 个Python数据分析神器!!
作者:xiaoyu,数据爱好者Python数据科学用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率。一、Pandas ProfilingPandas Profiling提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对Pandas的数据框数据进行探索性数据分析。其实,Pandas中df.describe()和df.info()函数也可以实现数据探索过程第一步。但它们只提供了对数据非常基本的概.原创 2020-06-14 18:50:31 · 1292 阅读 · 0 评论 -
太赞了!分享一个数据科学利器 PyCaret,几行代码搞定从数据处理到模型部署
作者:xiaoyu,数据爱好者Python数据科学出品学习数据科学很久了,从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间,尤其当你有个新的想法想要快速尝试下效果的时候,效率很低。东哥最近发现一个开源的Python机器学习库,名字叫PyCaret,这个轮子正好可以为了解决我刚才所描述的困扰,它的特点是以low-code低代码量来快速解决从数据预处理到模型部署的整个流程。用了一下感觉确实有点香,因此也和大家分享一下。PyCaret是什么?PyCaret是一个.原创 2020-06-07 20:27:55 · 2857 阅读 · 6 评论 -
那些功能逆天,却鲜为人知的pandas骚操作
作者:东哥微信公众号:Python数据科学pandas有些功能很逆天,但却鲜为人知,本篇给大家盘点一下。一、ACCESSORpandas有一种功能非常强大的方法,它就是accessor,可以将它理解为一种属性接口,通过它可以获得额外的方法。其实这样说还是很笼统,下面我们通过代码和实例来理解一下。>>>pd.Series._accessors...原创 2020-03-21 16:26:04 · 2656 阅读 · 0 评论 -
牛逼了!Scikit-learn 0.22新版本发布,新功能更加方便
☞500g+超全学习资源免费领取作者:xiaoyu,数据爱好者Python数据科学出品Scikit-learn此次发布的版本为0.22。我浏览了一下,此次版本除了修复之前出现的一些bug,还更新了很多新功能,不得不说更加好用了。下面我把我了解到主要的几个最新功能和大家分享一下。▍sklearn.ensemble集成模型1. 模型融合旧版本的ensemble集成学习模...原创 2019-12-06 17:44:02 · 1314 阅读 · 0 评论 -
数据探索很麻烦?推荐一款史上最强大的特征分析可视化工具:yellowbrick
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师前言玩过建模的朋友都知道,在建立模型之前有很长的一段特征工程工作要做,而在特征工程的过程中,探索性数据分析又是必不可少的一部分,因为如果我们要对各个特征进行细致的分析,那么必然会进行一些可视化以辅助我们来做选择和判断。可视化的工具有很多,但是能够针对特征探索性分析而进行专门可...原创 2019-08-13 13:48:19 · 4453 阅读 · 0 评论 -
Python一行代码搞定炫酷可视化,你需要了解一下Cufflinks
点击上方“Python数据科学”,选择“星标”公众号重磅干货,第一时间送达作者:xiaoyu,半路转行数据前言学过Python数据分析的朋友都知道,在可视化的工具中,有很...原创 2019-07-16 13:45:25 · 2466 阅读 · 0 评论