
Python数据分析与挖掘实战
江流静一
这个作者很懒,什么都没留下…
展开
-
《Python数据分析与挖掘实战》第7章——kmeans
本文是基于《Python数据分析与挖掘实战》的实战部分的第七章的数据——《航空公司客户价值分析》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。 1)在数据预处理部分增加了属性规约、数据变换的代码2)在模型构建的部分增加了一个画出雷达图的函数代码1 背景与目标分析 此项目旨在根据航空公司提供的数据,对其客户进行分类,并且比较不同类别客户的价值,为能够更好的为客户提供个性...原创 2018-02-09 20:17:03 · 5413 阅读 · 2 评论 -
【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战
作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及pandas基础操作,所有操作利用Excel均可以方便实现。备注:本文中使用的是ipython完成的编辑数据来源及结构 本文所分析的数据是通过爬虫抓取的微博数据。选取新浪微博为数据平台,选取我国34个省的旅游...原创 2017-06-28 15:09:32 · 131190 阅读 · 29 评论 -
《Python数据分析与挖掘实战》第13章——回归+DNN
本文是基于《Python数据分析与挖掘实战》的实战部分的第13章的数据——《财政收入影响因素分析及预测模型》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括: 1)探索了灰色预测的原理 2)画出预测结果图3)由于书中使用的是AdaptiveLasso,但是没有找到该函数,所以采用了其他变量选择模型1 挖掘背景及目标 根据1994-20...原创 2018-02-14 09:58:04 · 5183 阅读 · 3 评论 -
《Python数据分析与挖掘实战》第15章——文本挖掘
本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。旨在回顾对评论文本数据的处理和建模方法。1 挖掘背景与目标 对京东平台上的热水器评论进行文本挖掘分析,挖掘建模如下:1)分析某一个品牌热水器的用户情感倾向2)从评论文本中挖掘出该品牌热水器的优点和不足3)提炼不同品牌热水器的卖点2 数据探索与预处理2.1 数据筛选# -*- cod...原创 2018-02-14 10:51:22 · 4123 阅读 · 4 评论 -
《Python数据分析与挖掘实战》第14章——层次聚类
本文是基于《Python数据分析与挖掘实战》的实战部分的第14章的数据——《基于基站定位数据的商圈分析》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括: 1)探索了不同的method取值而画出的谱系聚类图的不同1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据。利用基站小区的覆盖范围作为商圈区域的划分,归纳出商圈...原创 2018-02-14 10:14:15 · 2368 阅读 · 0 评论 -
《Python数据分析与挖掘实战》第12章(下)——协同推荐
本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。由于此章内容很多,因此,分为三个部分进行分享——数据探索(上)、数据预处理(中)、模型构建(下)本文是继前一篇文章,进行的工作。本文是“模型构建(下)”部分本文将介绍三种推荐:基于物品的协同过滤推荐、随机推荐、按照流行度推荐# 读取数据库数据——模型数据1——婚姻数据(1682...原创 2018-02-14 08:51:23 · 4035 阅读 · 9 评论 -
《Python数据分析与挖掘实战》第12章(中)——协同推荐
本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。由于此章内容很多,因此,分为三个部分进行分享——数据探索(上)、数据预处理(中)、模型构建(下)本文是继前一篇文章,进行的工作。本文是“数据预处理(中)”部分1 数据清洗1.1 查看各个需要删除的规则包含的信息# 删除规则1:统计中间类型网页(带midques_关键字)#...原创 2018-02-14 07:31:16 · 3269 阅读 · 7 评论 -
《Python数据分析与挖掘实战》第11章——时间序列
本文是基于《Python数据分析与挖掘实战》的实战部分的第11章的数据——《应用系统负载分析与磁盘容量预测》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码;在作者所给代码的基础上增加的内容包括: 1)数据探索时画C盘/D盘已使用空间的时序图,并根据自相关和偏相关图判定平稳性,确定了所用模型是采用ARMA或者ARIMA,而不是AR或者MA;2)模型构建构建基于ARIMA或者A...原创 2018-02-11 23:24:44 · 13512 阅读 · 6 评论 -
《Python数据分析与挖掘实战》第9章——svm
本文是基于《Python数据分析与挖掘实战》的实战部分的第9章的数据——《基于水色图像的水质评价》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括: 1)数据预处理部分:切割图片、使用颜色矩方法进行特征提取 2)画混淆矩阵图备注:水质图像的下载链接:http://pan.baidu.com/s/1geRwH4v 密码:7n721 背景与目标...原创 2018-02-09 23:47:16 · 2934 阅读 · 6 评论 -
《Python数据分析与挖掘实战》第10章(下)——DNN
本文是基于《Python数据分析与挖掘实战》的实战部分的第10章的数据——《家用电器用户行为分析与事件识别》做的分析。接着前一篇文章的内容,本篇博文重点是处理用水事件中的属性构造部分,然后进行构建模型分析。1 属性构造 由文中可知:需要构造的属性如下: 热水事件起始数据编号、终止数据编号、开始时间(begin_time)、根据日志判断是否为洗浴(1表示是,0表示否)、洗浴时间点、总用水...原创 2018-02-11 22:17:01 · 2737 阅读 · 2 评论 -
《Python数据分析与挖掘实战》第10章(上)——DNN
本文是基于《Python数据分析与挖掘实战》的实战部分的第10章的数据——《家用电器用户行为分析与事件识别》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码;另外,原文中的数据处理部分排版先后顺序个人感觉较为凌乱,在此给出梳理。在作者所给代码的基础上增加的内容包括: 1)在数据规约部分: 书中提到:规约掉热水器"开关机状态"=="关"且”水流量”==0的数据,说明热水器不处于...原创 2018-02-11 14:25:46 · 4297 阅读 · 3 评论 -
《Python数据分析与挖掘实战》第8章——Apriori关联规则
本文是基于《Python数据分析与挖掘实战》的实战部分的第八章的数据——《中医证型关联规则挖掘》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。主要有:1)将原始数据按照聚类结果进行标记类别1 背景与目标分析 此项目旨在根据相关数据建模,获取中医证素与乳腺癌TNM分期之间的关系。2 数据预处理2.1 数据变换2.1.1 数据离散化datafile = 'data.xls...原创 2018-02-09 20:25:16 · 3295 阅读 · 1 评论 -
《Python数据分析与挖掘实战》第6章——LM+CART
本文主要是对《Python数据分析与挖掘实战》中的第6章——电力窃漏电用户自动识别数据进行的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。1 背景与目标分析 通过电力系统采集到的数据,提取出窃漏电用户的关键特征,构建窃漏电用户的识别模型。以实现自动检查、判断用户是否是存在窃漏电行为。2 数据探索分析及数据预处理2.1 数据特征分析根据文中表6-4及6-5的用电电量数据,进...原创 2018-02-09 13:42:28 · 3377 阅读 · 10 评论 -
Python中Gradient Boosting Machine(GBM)调参方法详解
转载链接点击打开链接转载 2018-07-09 17:53:01 · 745 阅读 · 0 评论