
数据分析与数据挖掘
数据分析与数据挖掘实战篇
curd_boy
热爱编程,喜欢探索新技术
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《Python数据分析与挖掘实战》第13章—— 财政收入影响因素分析及预测模型(lasso回归+DNN+LinearSVR)
本文是基于《Python数据分析与挖掘实战》的实战部分的第13章的数据——《财政收入影响因素分析及预测模型》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括:1)探索了灰色预测的原理2)画出预测结果图,数据特征相关性热力图3)由于书中使用的是AdaptiveLasso,但是没有找到该函数,所以采用了其他变量选择模型1.挖掘背景及...原创 2019-08-23 23:21:26 · 11937 阅读 · 13 评论 -
《Python数据分析与挖掘实战》第6章—— 电力盗窃电用户自动识别(CART+LM)
本文是《Python数据分析与挖掘实战》中的第6章——电力窃漏电用户自动识别数据进行的分析。1.背景与目标:通过电力系统采集到的数据,提取出窃漏电用户的关键特征,构建窃漏电用户的识别模型。以实现自动检查、判断用户是否是存在窃漏电行为。2.数据探索与预处理查看数据,发现有缺失值,使用朗格拉日插值法,处理缺失值#拉格朗日插值代码import pandas as pd #导入数据分析库Pa...原创 2019-05-08 16:29:42 · 1335 阅读 · 0 评论 -
《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析(LED)
本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。旨在回顾对评论文本数据的处理和建模方法。1.挖掘背景与目标对京东平台上的热水器评论进行文本挖掘分析,挖掘建模如下:分析某一个品牌热水器的用户情感倾向从评论文本中挖掘出该品牌热水器的优点和不足提炼不同品牌热水器的卖点2.2 数据探索与预处理2.1 数据筛选...原创 2019-08-23 12:35:22 · 4761 阅读 · 1 评论 -
《Python数据分析与挖掘实战》第7章——航空公司客户价值分析(kmeans)
本文是基于《Python数据分析与挖掘实战》的实战部分的第七章的数据——《航空公司客户价值分析》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。1)在数据预处理部分增加了属性规约、数据变换的代码2)在模型构建的部分增加了一个画出雷达图的函数代码1 背景与目标分析此项目旨在根据航空公司提供的数据,对其客户进行分类,并且比较不同类别客户的价值,为能够更好的为客户提供个性...原创 2019-08-31 17:24:54 · 6562 阅读 · 0 评论 -
《Python数据分析与挖掘实战》第8章——中医证型关联规则挖掘(Apriori关联)
本文是基于《Python数据分析与挖掘实战》的实战部分的第八章的数据——《中医证型关联规则挖掘》做的分析。旨在补充原文中的细节代码,并给出文中涉及到的内容的完整代码。主要有:1)将原始数据按照聚类结果进行标记类别1 背景与目标分析此项目旨在根据相关数据建模,获取中医证素与乳腺癌TNM分期之间的关系。2 数据预处理2.1 数据变换2.1.1 数据离散化datafile = 'data...原创 2019-09-02 09:35:26 · 3263 阅读 · 1 评论 -
《Python数据分析与挖掘实战》第9章——基于水色图像的水质评价(svm)
1.基于水色图像的水质评价背景有经验的渔业生产的从业者可以通过观察水质变化调控水质,来维持养殖水体生态系统中的浮游植物、微生物、浮游动物等的动态平衡,然而这些判断是通过经验和肉眼观察得出的,存在主观性引起的观察性偏差,使观察结果的可比性、可重复性降低,不易推广使用。数字图像处理技术为计算机监控技术在水产养殖业的应用提供了更大的空间。在水质在线监测方面,数字图像处理技术是基于计算机视觉的...原创 2019-09-02 13:14:55 · 5077 阅读 · 1 评论 -
《Python数据分析与挖掘实战》第11章——应用系统负载分析与磁盘容量预测(时间序列)
文章目录1.背景与目标分析2.2 数据探索2.1 查看数据信息2.2 数据平稳性分析3 数据预处理3.1 数据清洗3.2 数据变换——属性构造4 模型构建4.1 确定模型—— ARMA or ARIMA?4.2 平稳性检测4.2 白噪声检验4.3 模型识别(最优模型)4.4 模型检验4.5 模型预测4.5 模型评价5 预测可视化《Python数据分析与挖掘实战》的实战部分的第11章的数据——《应...原创 2019-09-02 18:52:34 · 2251 阅读 · 0 评论 -
《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)
本文是基于《Python数据分析与挖掘实战》的实战第14章《基于基站定位数据的商圈分析》做的分析。1 挖掘背景及目标从某通信运营商提供的特定接口解析得到用户的定位数据。利用基站小区的覆盖范围作为商圈区域的划分,归纳出商圈的人流特征和规律,识别出不同类别的商圈,选择合适的区域进行运营商的促销活动2 数据预处理2.1 数据标准化查看部分数据#数据标准化到[0,1]import pand...原创 2019-05-12 00:09:48 · 1551 阅读 · 0 评论 -
高考网高校数据可视化
文章目录1.准备数据2.数据展示3.可视化展示3.1 各城市高校数量 bar3.2 高校数量前十名 pie3.3 高校数量后十名 pie3.4 高校分布热力图 geo3.5 各地区高校数量段位图 geo3.6 高校质量分析985_211 pie bar3.7 高质量高校分布热力图 geo map3.8 地区高质量高校占比 liquid北京高质量高校占比北京上海江苏高质量高校占比占比前十城市高质量高...原创 2019-09-27 18:28:29 · 3277 阅读 · 2 评论 -
Python3.6+ pyecharts v1.x 绘图
1.前提.1.1、Pyecharts各个版本与Python的对应关系pyecharts 分为 v0.5.x 和 v1.x 两个大版本,v0.5.x 和 v1.x 间不兼容,v1.x 是一个全新的版本。Pyecharts各版本与python的对应关系见下表安装 Pyechartsv1系列版本的Pyecharts仅支持python3.6+ ,即如果你的python是3.6+,则默认会下载最...转载 2019-08-26 17:35:32 · 4318 阅读 · 0 评论 -
Python词云实现
python制作词云大致分这几个步骤:1.制作停用词文本2.读取文本并使用停用词3.配置词云参数并生成图片形状的词云代码如下:import jieba.analyseimport imageioimport jieba.posseg as psegdef jieba_cut(): #西游记停用词 fr = open('西游记停用词.txt', 'r') st...原创 2019-05-05 21:42:41 · 42280 阅读 · 3 评论 -
爬取淘宝商品信息之数据分析篇
淘宝爬虫请戳:https://blog.youkuaiyun.com/weixin_43746433/article/details/976235111.准备工作1.1 项目目的:对商品标题进行文本分析以及词云可视化商品价格分布情况分析商品的销量分布情况分析商品价格对销量的影响分析商品价格对销售额的影响分析不同省份或城市的商品数量分布1.3 项目步骤:数据采集模块:利用Python爬...原创 2019-07-29 23:35:18 · 8094 阅读 · 1 评论 -
pandas-profiling(数据预览分析)
1. 总体数据首先是数据集信息:变量数(列)、观察数(行)、数据缺失率、内存;数据类型的分布情况2. 警告信息主要包括以下信息:要点:类型,唯一值,缺失值分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度3. 单变量描述以此对每个变量进行描述解析4. 相关...原创 2019-07-24 12:45:20 · 612 阅读 · 0 评论 -
pyecharts参数详情
参考链接:[!http://pyecharts.org/#/zh-cn/charts_configure]本文介绍了一些常用配置项,包括提示框,缩放,标记,映射等,代码中有详细注释也可参照这篇文章:https://blog.youkuaiyun.com/miner_zhu/article/details/81949004导入import pyechartsfrom pyecharts.engi...转载 2019-07-30 12:01:53 · 5917 阅读 · 0 评论 -
交易数据异常检测(数据不均衡问题,二分类)
1.案例背景和目标银行的这些数据已经通过处理,不需要再次处理,只需建模2.样本不均衡解决方案2.1 查看数据import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdata = pd.read_csv("creditcard.csv")data.head()2.2 查看label数据count_...原创 2019-07-27 18:22:23 · 2480 阅读 · 0 评论 -
当当网图书爬虫与数据分析
'''Function: 当当网图书爬虫'''import timeimport pickleimport randomimport requestsfrom bs4 import BeautifulSoupheaders = { 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows N...原创 2019-08-25 01:28:19 · 6128 阅读 · 4 评论 -
爬取新浪微博某超话用户信息,进行EDA分析
Sina_Topic_Spider:内容: 爬取某位明星的微博超话的上万条用户信息,对爬取的结果进行EDA分析与数据可视化,如分析用户年龄,性别分布、粉丝团的地区分布,词云打榜微博内容。详细代码在Github:https://github.com/why19970628/Python_Crawler/tree/master/Sina_topic_spider适合人群:Python爬虫学习者...原创 2019-08-27 11:01:19 · 9082 阅读 · 8 评论 -
《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐(协同推荐)数据探索分析篇①
文章目录1 背景与目标分析2.数据探索分析2.1 网页类型分析2.1.1 统计各个网页类型所占的比例2.1.2 网页107类型中的内部统计2.1.3 统计带"?"问号网址类型统计2.1.4 统计199类型中的具体类型占比2.1.5 统计瞎逛用户中各个类型占比2.2 点击次数分析2.2.1 统计点击次数2.2.2 点击次数与用户数量关系2.2.3 统计1~7次数及7次以上的点击数2.2.4 浏览一次...原创 2019-09-03 13:53:43 · 5908 阅读 · 9 评论 -
《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐(协同推荐)数据预处理篇②
1 数据清洗1.1 查看各个需要删除的规则包含的信息类型网页import pandas as pdfrom sqlalchemy import create_engine# 读取数据库数据engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')sql = pd.read_sql('...原创 2019-09-03 17:04:45 · 1204 阅读 · 4 评论 -
某宝爬取商品的数据分析成图总结
文章目录1.数据清洗2.标题关键字与价格分析2.1 商品标题词云图2.2 关键词柱状图2.3 标题高频关键字与平均销量关系2.4 标题高频关键字与平均售价关系3.销量与价格、地区的关系3.1 商品价格、销量区间分布3.2 商品价格与平均销量关系分析3.3 省份与销量的分布3. 函数分布3.1 分析标题关键字与其他属性的关系analysis_title_keywords()3.2 分析商品某数值区间...原创 2019-09-19 01:14:15 · 1547 阅读 · 3 评论 -
python使用pyecharts 0.5.X画图
文章目录1.介绍2.直方图3.条形图4.折线图5.饼图6.散点图7.面积8.词云9.地图1.介绍pyecharts是一个用于生成echarts图表的类库.echarts是百度开源的一个数据可视化库,用echarts生成的图可视化效果非常棒。使用pyechart库可以在python中生成echarts数据图。官网:http://pyecharts.orgGithub:https://git...原创 2019-07-18 23:32:30 · 5182 阅读 · 1 评论 -
这十套练习,教你如何使用Pandas做数据分析
Pandas是入门Python做数据分析所必须要掌握的一个库,本篇精选了十套练习题,帮助读者上手Python代码,完成数据集探索。数据集下载地址:https://github.com/Rango-2017/Pandas_exercises1 - 开始了解你的数据探索Chipotle快餐数据– 将数据集存入一个名为chipo的数据框内– 查看前10行内容– 数据集中有多少个列(colu...原创 2019-05-22 23:32:49 · 5902 阅读 · 0 评论 -
拉勾网招聘数据的特征工程探索④
1.特征工程概述什么是特征工程?特征工程指的是最大程度上从原始数据中汲取特征和信息来使得模型和算法达到尽可能好的效果。特征工程具体内容包括:1.数据预处理2.特征选择2.特征变换与提取3.特征组合4.数据降维特征工程的两个基本面:基于数理和模型的考虑基于业务的考虑(需要了解数据所属业务领域的专业知识)几个重要观点:在实际的特征工程实践中,这两个基本面都要考虑,尤其是业务层...原创 2019-07-03 22:39:42 · 806 阅读 · 0 评论 -
Python数据分析与应用 第二章 NumPy 数值计算基础(下)
# 代码 2-39import numpy as np #导入NumPy库arr = np.arange(100).reshape(10,10) #创建一个数组np.save("./tmp/save_arr",arr) #np.save保存数组print('保存的数组为:\n',arr)# 代码 2-40arr1 = np.array([[1,2,3],[4,5,6]])arr...原创 2019-05-08 17:36:16 · 1189 阅读 · 0 评论 -
Python数据分析与应用 第三章 Matplotlib数据可视化基础 (折线图) 上
本文是《Python数据分析与应用》第三章的代码主题:Matplotlib数据可视化1.Matplotlib折线图的绘制# 代码 3-1import numpy as npimport matplotlib.pyplot as plt## %matplotlib inline表示在行中显示图片,在命令行运行报错data = np.arange(0,1.1,0.01)plt.titl...原创 2019-05-08 17:48:30 · 2250 阅读 · 0 评论 -
Python数据分析与应用 第三章 Matplotlib数据可视化基础 (散点图,雷达图,网络图) 中
散点图代码:# 代码 3-5import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示plt.rcParams['axes.unicode_minus'] = Falsedata = np.load('D:/软件(学习)/Python/数据分析...原创 2019-05-08 19:18:10 · 2400 阅读 · 0 评论 -
Python数据分析与应用 第三章 Matplotlib数据可视化基础 (直方图,饼图,箱线图) 下
**关于国民生产总值直方图的绘制:1.查看数据**# 代码 3-12import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = 'SimHei'## 设置中文显示plt.rcParams['axes.unicode_minus'] = Falsedata = np.load('....原创 2019-05-08 19:34:36 · 3561 阅读 · 0 评论 -
Python对爬取51job详情进行数据清洗(2)
1.查看数据,并对数据进行去重,去除任意的缺失值,提取关键字等操作import pandas as pdimport redef clean_data_quchong_key(): data=pd.read_csv('test_datasets.csv',delimiter='#',header=0) df=pd.DataFrame(data) print(df.sh...原创 2019-06-08 17:35:20 · 4675 阅读 · 2 评论 -
python使用pyecharts绘制地图
一.查看数据import pandas as pddata=pd.read_csv('test_datasets_finally.csv',delimiter='#',header=0)df=pd.DataFrame(data)print(df.shape)print(df.loc[:,'area'].nunique())#地区数area=df.loc[:,'area'].value_...原创 2019-06-08 17:45:55 · 50879 阅读 · 12 评论 -
Python文本数据分析:新闻分类任务(贝叶斯,TF-IDF词向量)
基本思路1.文本分析2.关键词提取3.新闻数据与任务简介4.TF-IDF关键词提取5.LDA建模6.基于贝叶斯算法进行新闻分类1.文本分析11.查看数据import pandas as pdimport jiebadf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'...原创 2019-06-18 22:49:17 · 9679 阅读 · 9 评论 -
Python生成51job工作岗位要求词云
import pandas as pdimport jieba, refrom scipy.misc import imreadfrom wordcloud import WordCloud, ImageColorGenerator, STOPWORDSimport matplotlib.pyplot as pltdata = pd.read_csv('test_datasets_fin...原创 2019-06-08 22:44:06 · 1205 阅读 · 1 评论 -
Python对爬取的51job详情进行数据分析(3)
1.工作地点利用pyecharts和python3.7实现工作地点地图数据的可视化。详情请戳https://blog.youkuaiyun.com/weixin_43746433/article/details/913463712.学历要求2.1查看数据print(df.loc[:,'education'].nunique())#地区数education=df.loc[:,'education'...原创 2019-06-09 01:26:49 · 4322 阅读 · 4 评论 -
《Python数据分析与应用》 第六章 使用Sklearn转换器处理数据(上)
1.查看乳腺癌数据集,划分数据集from sklearn.datasets import load_breast_cancercancer=load_breast_cancer()print('breast_cancer数据集的长度为:',len(cancer))print('breast_cancer数据集的类型为:',type(cancer))# 代码 6-2cancer_dat...原创 2019-06-17 20:59:58 · 1420 阅读 · 0 评论 -
《Python数据分析与应用》 第六章 构建并评价分类模型(中)
1.加载所需的函数、数据import numpy as npfrom sklearn.datasets import load_breast_cancerfrom sklearn.svm import SVCfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Stand...原创 2019-06-17 21:20:44 · 1957 阅读 · 0 评论 -
《Python数据分析与应用》 第六章 构建并评价聚类模型(下)
1.构建聚类K-Means聚类模型from sklearn.datasets import load_irisfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.cluster import KMeansiris = load_iris()iris_data = iris['data'] ##提取数据集中的特征iris_...原创 2019-06-17 22:04:57 · 1449 阅读 · 0 评论 -
Python对拉钩网爬取的数据进行数据清洗②
脏数据脏数据可以理解为带有不整洁程度的原始数据。原始数据的整洁程度由数据采集质量所决定。 脏数据的表现形式五花八门,如若数据采集质量不过关,拿到的原始数据内容只有更差没有最差。 脏数据的表现形式包括:数据串行,尤其是长文本情形下数值变量种混有文本/格式混乱各种符号乱入数据记录错误大段缺失(某种意义上不算脏数据)数据采集完后拿到的原始数据到建模前的数据 ———— there is a ...原创 2019-07-02 22:39:05 · 3649 阅读 · 0 评论 -
拉勾网招聘数据的探索性数据分析③
探索性数据分析(Explore data analysis)EDA一定程度上跟描述性数据分析重合,但范围要大于描述性数据分析探索性数据分析:不清楚数据长什么样不知道数据里有什么目标不甚明确:大目标清晰,中间途径不清晰从数据中找到线索EDA是一种方法论而不是特定技术探索性数据分析的基本面:定量分析展示统计绘图与数据可视化探索性数据分析的具体方法:数据基本概况(统计定量分析)...原创 2019-07-03 00:56:22 · 2247 阅读 · 1 评论 -
拉钩招聘数据机器学习建模(GBDT,XGBoost,LightGBM)⑤
boosting族算法:将一组弱学习器提升为强学习器的框架算法以下boosting的分类:AdaboostGBDTXGBoostlightGBM…了解机器学习建模详情请戳https://blog.youkuaiyun.com/weixin_43746433/article/details/946241031.GBDT一、GBDT之DT——回归树GBDT主要由三个概念组成:Regressi...原创 2019-07-04 17:23:57 · 588 阅读 · 0 评论 -
机器学习实战之科比数据集分析(随机森林寻最优值参数)
文章目录总体思路分为三部1.查看数据,对数据进行清洗,规约1.1 查看数据1.2 数据清洗,规约1.3 删除不相关的特征1.4 数据one-hot处理*2.建立模型,挑选出最优参数2.1 准备数据集,训练集,测试集2.2 建立随机森林模型2.3 通过树的大小和K折验证得到log_loss最小的值和最优树的数量2.4 通过树的深度和K折验证得到log_loss最小的值和最大深度的最优值3.绘制模型训...原创 2019-07-05 20:08:37 · 4141 阅读 · 1 评论 -
Python爬虫实战之爬取拉勾网职位①
拉钩网址:https://www.lagou.com/zhaopin/通过分析网页结构,爬取当前网页的目标信息,以及各个网页内的职位描述代码如下import requestsfrom lxml import etreeimport pandas as pdfrom time import sleepimport random# cookiecookie = '你的cooki...原创 2019-07-01 17:21:19 · 916 阅读 · 0 评论