
Python数据分析
文章平均质量分 78
个人Python数据分析学习记录
可以叫我才哥
关注我的公众号呗,一起学习
微信公众号:可以叫我才哥
展开
-
数据挖掘 | 利用python进行商品亲和性分析
以下案例来自《Python数据挖掘入门与实践(第二版)》第一章1.3亲和性分析的简单示例。我们先通过本案例了解下关于亲和性的一些概念和工作流程,然后再讨论一些相对更优化的处理方案。注:该书明确说明为了便于理解,有时更加关注代码和工作流程是否清晰易懂,而不是所采用的方法效率是否最优。1. 什么是亲和性分析亲和性分析是一种用于计算样本相似度的数据挖掘方法,这个相似度可以出现在以下几种场景:网站的用户,拓展服务项目或者定向投放广告;销售的商品,推荐电影或其他商品(猜你喜欢)。关于亲和性分析,大家估计原创 2021-06-24 10:10:36 · 864 阅读 · 2 评论 -
Superset 1.0.1 遇到的坑及解决方案(2021年4月5日)
1.直接安装pip install apache-superset 容易出现错误,可以先安装以下两个依赖库:python_geohash-0.8.5-cp37-cp37m-win_amd64.whlsasl-0.2.1-cp37-cp37m-win_amd64.whl大家自行到https://www.lfd.uci.edu/~gohlke/pythonlibs下载2.连接mysql数据库的时候报错可以先安装依赖库:pip install mysqlclient3.Sql查询的时候报以下错误 D原创 2021-04-05 11:58:15 · 780 阅读 · 1 评论 -
Python爬虫 | 以滑雪为例演示大众点评商铺信息采集(字体反爬)
文章目录1.简述2.字体反爬处理2.1.获取字体文件链接2.2.创建三类字体与实际字符映射关系3.单页店铺信息解析4.全部页数据获取4.1.获取数据页数4.2.采集全部数据5.总结1.简述冬天是一个适合滑雪的季节,但是滑雪需谨慎,比如初学者就不要上高级道,能不能滑心里要有点哔数。那么今天,咱们就以滑雪为关键字,演示一下如何用Python爬虫采集大众点评的商铺信息吧。在搜索结果以翻页的形式通过 request.get() 即可获取页面数据,然后再对网页数据进行相关解析即可获得我们需要的商铺信息。不过原创 2021-01-08 00:21:54 · 1065 阅读 · 2 评论 -
Python爬虫 | 爬取贝壳找房8万+二手房源,看看普通人在北京买房是有多难!
文章目录1.概述2.数据采集3.数据清洗3.1.读取数据3.2.去掉车位(地下室)数据3.3.房源信息解析4.数据处理及可视化4.1.各地区二手房源数4.2.各地区二手房均价4.3.各地区二手房总价4.4.各地区二手房面积4.5.各地区二手房年限4.6.各地区二手房【价格-地区】数量分布4.7.各地区二手房【户型-价格】数量分布4.8.各地区二手房【户型-地区】数量分布4.9.各地区二手房【户型-地区】均价分布5.房源标题及小区词云6.总结1.概述最近看到一句话,感觉很扎心,这句话是”任何一个男孩子小时原创 2021-01-08 00:19:56 · 4693 阅读 · 3 评论 -
北上广深自如合租房图鉴
1.合租房源基本情况我们爬取了自如北上广深合计4.58万租房信息,其中合租房3.37万,占比75%。自如在其大本营北京房源最多,达到了1.62万间,其次是上海为1.14万间。相比之下,其在广深的房源数量级并不高。在单间平均面积上,基本都超过了10平米,其中北京和上海的平均面积都超过了12平米。在单间的平均月租金上,北京高达2,952,远高于其他城市。而广州的平均月租金仅1,651,几乎只有北京的一半。同样作为超一线城市,北京的租房压力也太高了,而广州的租房压力似乎不会成为压力。2.单间大小和原创 2020-12-18 23:23:57 · 524 阅读 · 1 评论 -
Python爬取自如北京2.3万条租房信息,发现快租不起房子了
文章目录1.概述2.数据采集-爬虫2.13.数据处理-清洗4.数据分析-统计5.数据展示-可视化6.总结1.概述2.数据采集-爬虫自如的租房信息每个筛选结果最多展示50页,约1500个左右。考虑到很多地区的租房数量超过1500个,我们可以通过增加筛选的方式进行遍历获取全部租房信息。以北京为例,由于自如大本营在北京,我们发现北京有租房信息2.3万条以上,因此这里采用的是地区-房价区间 2个筛选项进行选择,其中筛选项为自定义以500位颗粒度。在爬虫过程中,我们会发现频繁的请求数据会被封IP,同时自如的原创 2020-12-16 02:09:23 · 2214 阅读 · 6 评论 -
Python探秘大众点评北京火锅店第①期:好吃的火锅在哪里?
文章目录1. 说明2. 北京火锅店基础数据2.1. 火锅分类2.2. 各地区火锅分类2.3. 各地区火锅店数量3. 北京火锅店评分数据3.1. 评分直方图3.2. 各地区商家评分箱线图3.2. 各地区口味评分箱线图3.3. 各地区环境评分箱线图3.4. 各地区服务评分箱线图4.评价数及人均消费4.1. 整体评价数分布本来打算今天(12月6日,我们上班)中午和朋友们去吃火锅来着,然后提前在大众点评上探秘一下好吃的火锅在哪里。结果因为连续的熬夜加班,也便没时间去吃火锅了,改到圣诞节那个周末吧(12月26日我们原创 2020-12-07 17:29:26 · 1859 阅读 · 2 评论 -
pandas字典与json数据处理
目录1. 字典数据转化为Dataframe类型1.1.简单的字典1.2.字典组成的列表1.3.元组组成的字典1.4.嵌套字典2.Dataframe转化为字典数据3.json数据与Dataframe类型互相转化4.多层结构字典转化为Dataframe1. 字典数据转化为Dataframe类型1.1.简单的字典对于字典数据,直接用pd.Dataframe方法即可转化为Dataframe类型。我们可以看到,在常规的字典转化为Dataframe时,键转化为了列索引,行索引默认为range(n),其中n为数据原创 2020-11-25 22:51:05 · 1369 阅读 · 0 评论 -
使用Seaborn进行可视化
文章目录使用Seaborn进行可视化Seaborn 对比 Matplotlib探索 Seaborn 图表直方图、KDE 和 密度散点图矩阵多面直方图因子图联合分布柱状图例子:马拉松完成时间分析使用Seaborn进行可视化Matplotlib已经证明了自己是一个异常有用和流行的可视化工具,但即使是狂热的用户也承认它有很多不足的地方。下面是一些经常被提出来关于Matplotlib的吐槽:在2.0版之前,Matplotlib默认值不总是最好的选择。因为它是基于MATLAB circa 1999的,这一点经翻译 2020-07-16 01:17:24 · 1131 阅读 · 0 评论 -
Pandas学习笔记05-分组统计与数据透视表
对数据集进行分类,并在每组数据上进行聚合操作,是非常常见的数据处理,类似excel里的分组统计或数据透视表功能。pandas提供了比较灵活的groupby分组接口,同时我们也可以使用pivot_table进行透视处理。1.分组分组函数groupby,对某列数据进行分组,返回一个Groupby对象。在进行groupby分组后,我们可以对分组对象进行各种操作,比如求分组平均值mean()很多时候,我们需要返回dataframe型数据进行二次操作size()方法可以获取各分组的大小遍历分组原创 2020-07-05 16:09:20 · 648 阅读 · 0 评论 -
Pandas学习笔记04-数据清洗(缺失值与异常值处理)
文章目录1.查看缺失值2.删除缺失值3.填充缺失值4.值的替换5.离散化与分箱6.异常值过滤之前我们介绍过通过索引获取自己想要的数据,这节我们介绍在数据清洗过程中遇到缺失值、异常值时的一些处理方式以及我们需要对某列的值就行分组的时候怎么解决。原始数据集来自本周刚抓取的创造营2020撑腰榜数据,公众号后台回复‘ 异常值’可以获得本节使用的数据集与ipynb文件。1.查看缺失值isnull 和 isna 可以获取 返回缺失值 的布尔值,为True则表示缺失值,False则表示非缺失值notnull原创 2020-06-25 22:55:54 · 1807 阅读 · 2 评论 -
Pandas学习笔记03-数据清洗(通过索引选择数据)
文章目录1.索引设置1.1.reindex1.2.set_index1.3.reset_index1.4.rename2.索引选择2.1. iloc 整数标签2.1.1. 行索引2.1.2. 列索引2.1.3. 混合索引2.2. loc 轴标签2.2.1.行索引2.2.2.列索引2.2.3.混合索引2.2.4.函数式索引2.3. []方法2.3.1.行索引2.3.2.列索引2.3.3.混合索引与函数式索引2.3.4.布尔索引3.删除重复数据4.思考题今天我们就在jupyterlab里进行操作演示,本次推文原创 2020-06-20 17:28:40 · 545 阅读 · 0 评论 -
实践应用|pandas+PyQt5制作数据(分组)透视处理工具
文章目录执行效果1.窗体可视化设计2.多文件合并(concat)2.1.获取文件夹下的文件列表2.2.根据文件类型进行文件读取2.3.对读取的文件夹下简单的数据清洗2.4.合并清洗后的数据3.多文件拼接(merge)4.数据处理(pivot_table和groupby)4.1.数据透视(pivot_table)4.2.分组统计(groupby)4.3.数据处理函数5.总结由于在工作中需要处理很多日志文件数据,这些数据并不存在于数据库,而是以每日1个单文件的形式存在,为了让我们在日常数据处理中更方便的进行一原创 2020-06-13 18:20:29 · 1429 阅读 · 0 评论 -
Pandas学习笔记02-数据合并(concat/merge/join)
这部分,我觉得pandas官网资料介绍的太香了,直接搬运过来吧。1.concatconcat函数可以在两个维度上对数据进行拼接,默认纵向拼接(axis=0),拼接方式默认外连接(outer)。纵向拼接通俗来讲就是按行合并,横向拼接通俗来讲就是按列合并;外连接通俗来说就是取所有的表头字段或索引字段,内连接通俗来说就是只取各表都有的表头字段或索引字段。先简单看个例子吧~In [1]: df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], ...:原创 2020-06-09 22:40:35 · 1029 阅读 · 0 评论 -
Pandas学习笔记01-基础盘点
文章目录1、Pandas模块安装与导入2、基础数据结构2.1、Series2.2、DataFrame3、数据载入及存储3.1、数据载入3.2、数据存储4、基础功能4.1、数据抽样4.2、描述统计4.3、计数4.4、唯一值4.5、索引标签4.6、索引位置4.7、累计值4.8、排序与排名pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和原创 2020-06-07 20:44:48 · 2653 阅读 · 0 评论