
python
卯月七
多歧路,今安在。
展开
-
【数据分析/挖掘】【数据可视化-上】入门+代码+实操
前言:在我们开始建模之前,还有最后一个准备步骤需要完成——数据可视化!数据可视化对于数据分析/建模人员来说关键在让别人看得懂。也就是我们使用数据可视化来将一些我们觉得重要的信息进行展示,可以让非技术人员直观的对数据有一个认知。本一小节内容将会介绍matplotlib、seaborn、plotly、bqplot四种可视化方式,其中matplotlib是底层的可视化三方包,可以自己进行深度定制。seaborn则是对matplotlib的封装,可以更便捷的生成可视化图像,不过模块化带来的就是可定制性不够强。p原创 2020-05-14 14:49:59 · 835 阅读 · 0 评论 -
【数据分析/挖掘】【数据预处理&特征工程&数据处理】快速入门+案例+代码+GIF实操
前言:在我的上一份文章中,介绍到了数据清洗的常用方法及其Python实现。这篇文章主要是在数据清洗后的特征工程的实现,特征工程包含三个方面,分别为特征提取、特征创造、特征选择。特征提取特征创造特征选择从文字、图像、声音等其他非结构化数据中提取新信息作为特征。比如说,从地址中提取国家、省、市等信息。将现有的特征进行组合,或者进行某种计算得到新的特征。例如我们的多元多次线性回...原创 2020-05-06 16:36:25 · 748 阅读 · 0 评论 -
【数据分析】【数据清理】快速入门+案例+代码+GIF实操
前言:经过前面两篇文章的阅读,我们已经对数据的获取有了一定的概念。在数据挖掘的工作中,我们很大一部分的时间都会花在数据处理和特征工程上面,真正的可视化和建模反而时间占比不大。这是因为,建模要求我们传入的数据是机器可识别的数据,并且数据不包括异常、缺失值。因此,这篇文章主要内容是常见的数据处理的套路总结,下一篇文章是常见的特征工程套路的总结。我将会按照原理、自己的理解、代码实现、案例这四个维度进行常...原创 2020-04-19 16:07:49 · 799 阅读 · 0 评论 -
【数据分析】【数据获取】【Python爬虫】快速入门+实例+代码+GIF实操
一:爬虫认知爬虫名称由来于蜘蛛结网,蜘蛛在一个一个的蛛网节点中等待猎物的到来。而我们的爬虫也是从网页页面的HTML资源中取出我们要的节点资源。二者过程相似,因此爬虫称之为Spider。1.1 爬虫的前置知识知道双标签的HTML结构,知道网页或者抓包工具如何查看资源,了解css和js更佳。如果零基础也没有关系,接下来的案例讲解中会穿插到有相关的知识。1.2 准备工具安装有python3,以...原创 2020-04-18 21:28:07 · 734 阅读 · 0 评论