python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

该文章已生成可运行项目,

python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。

抖音用户数据分析

1.理解数据

数据字段含义

了解数据内容,确保数据来源是正常的,安全合法的。理解一下每一个字段的含义,A列是序号ID,不连续,没有多大的意义可以删除掉;B列uid为看视频的用户id;C列user_city为用户所在的城市,用数字来代替;D列为intem_id为作品的ID;E列author_id为发布作品的作者ID;F列item_city为发布视频作者所在的城市;G列channel为观看视频的来源,现在视频的来源不光是在APP上,在其他网站或者视频上都能有视频的推送;H列finish为是否完整浏览了视频作品;I列like为是否为作品点赞;J列music_id为使用的音乐;K列duration_time为作品的时长;L列real_time为作品真实发布的时间;M列H为当前的时间,具体到小时;N列date为发布的日前。
常用的代码 可以直接复制使用

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pyecharts 

%matplotlib inline  # 每一行默认输出
plt.style.use('ggplot')  # 风格的设置

plt.rcParams['font.family'] = 'SimHei'  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False # 坐标轴支持负号

导入数据的时候,数据内容比较多,超出excel或者wps文件的范围时,打开数据就会有缺失。在数据处理的时候,如果处理的数据是几百条到万以内的,excel和wps可以进行相应的操作;分析的数据级别是几千到几十万,超出了excel和wps的表格范围,数据不能正常的显示,所以就要用pandas进行分析;如果数据是以亿级别的,就要用到大数据分析。
在这里插入图片描述
导入数据之后,对数据进行预览,可以看到有100多万条数据,之前的查看信息会显示有数据的数量,如果数据没有缺失值的话,就不再显示数据的数量。可以用describe来统计表中数值的信息,查看有无异常数值,如果表中数据为字符串则不显示。
在这里插入图片描述
在这里插入图片描述

2.数据处理

数据处理,在机器学习中成为数据清洗和特征工程。在探索性的数据分析(EDA)中,用不到算法的话,只需要做数据相应的处理,包含了数据的清洗。
在这里插入图片描述
如果对表格的原数据进行更改,可以在参数里增加inplace=True;如果不再原数据上进行更改,可以把更改的内容重新赋值为原数据的变量名。
在这里插入图片描述

3.分析数据

通过可视化的手段,利用图表来对数据进行分析。在探索型的数据分析(EDA)中经常用可视化来完成,利用图表展示;在验证性的数据分析中,要利用统计学的知识做假设校验,运用算法进行预测,建立模型。
在这里插入图片描述
画图之前要先把需要的x轴和y轴的数据准备好。分析日播放量、日用户量、日作者量、日作品量跟时间有关系,x轴为时间,y轴是播放、用户、作者、作品的信息,可以通过日期进行分组来进行计算。
在这里插入图片描述
在这里插入图片描述
作品数量top50中,数量与播放率、点赞率之间之间的关系;
在这里插入图片描述
在这里插入图片描述

4.结论

4.1分析日播放量、日用户量、日作者量、日作品量跟时间有关系

日播放量、日用户量、日作者量、日作品量随时间的变化保持一样的变化趋势,前期都平稳增长,从10-20到10-29日,出现了剧烈增长,随后又出现了下降的趋势,可能是这个期间平台进行活动,吸引用户去发布作品和观看作品,作品量,作者量,作者量在这个时间内都会出现巨幅增长,活动结束用户就回归到正常的水平。

4.2 数量与播放率、点赞率之间之间的关系

数量与播放率是成正比;作品的数量和点赞率之间没有明显的关系。

某平台二手房数据分析

用pandas做数据处理,用pyecharts做可视化的图表,分析市面上二手房各项的基本特征以及房源分布的情况,探索二手房背后的规律。

1.导入库、读取数据

常用的数据可以直接理解,专业的数据需要掌握专业的知识,提前了解专业背景。
在这里插入图片描述

查看信息

查看数据统计以及基本信息,楼层、面积、价格、年份列为数值,电梯列有缺失。
在这里插入图片描述

2.数据处理

缺失值

电梯列缺失8257条数据,对于缺失值的处理有删除和填充操作,查看一下电梯列出现的数据,查看电梯列的值的唯一值,为“有电梯”、“无电梯”和NaN,对于不确定的因素,可以填充NaN为第三方的数据,比如填充为“未知”。
在这里插入图片描述
查看数据求朝向的唯一值,发现房屋的朝向有意义相同的值,比如“西南”和“南西”表示同一个方位,可以对数据进行替换,对值进行统一。利用groupby统计各个城区二手房的数量,发现丰台、昌平、朝阳、海淀的二手房屋数量最多。
在这里插入图片描述

数据转换

把数据转换为列表,便于图表的绘制。
在这里插入图片描述

3.可视化分析

3.1 各个城区二手房数量分布地图

把每个区的名字取出来,拼接上字符串“区”,实例化地图类,传入键值对,绘制地图。移动鼠标可以很便捷的查看每个区的房屋数据,拖动左侧的热力图可以使得筛选区域在地图上以不同的颜色进行显示。
在这里插入图片描述

3.2 各个城区二手房的平均价格

对于列名称要直接复制,以防列名称中有空格类的字符,在代码中直接输入会找不到。
在这里插入图片描述
以区域为x轴,房屋的数量和平均价格分别为y轴绘制图表。
在这里插入图片描述
在这里插入图片描述

3.3 二手房价格最高的Top15

在这里插入图片描述
在这里插入图片描述

3.4 二手房的总价与面积的散点图

说明房屋集中在面积400平以下,价格3000万以下。
在这里插入图片描述

3.5 房屋朝向的饼图

大部分房屋都是南北朝向。
在这里插入图片描述
在这里插入图片描述

3.6 装修情况的柱状图和有无电梯的玫瑰图

玫瑰图也就是不规则的圆环图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.7 二手房楼层分布柱形图

通过数据可以看出 6层的楼房交易量最多。
在这里插入图片描述
在这里插入图片描述

3.8 房屋面积分布柱形图

每套房的面积是连续型的数值,不能进行分组,因为每套房的面积大都不相同,可以利用区间进行面元划分。
在这里插入图片描述
在这里插入图片描述

4. 分析结论

对二手房数据从不同角度进行分析,通过图表可以得出:
每个城区的二手房数量,丰台、昌平、朝阳、海淀四个区域在售的二手房数量是最多的,占总二手房的一半;
从平均售价中可以看出,丰台、昌平、朝阳、海淀的平均售价在800万以上;
二手房房屋的面积大概都在200平左右;约50%的房子都是南北朝向;
通过装修情况可以看出装修的房子比较多,说明自己住的房子出售的比较多;
大多数在售的房屋都是6层;大多数房屋的面积在150平以内。

本文章已经生成可运行项目
<think> 首先,用户的问题是:“我想了解地铁数据分析可视化的相关内容 请问地铁数据如何进行分析与可视化”。这是基于之前的引用内容,我应该参考这些引用来构建回答。 回顾引用: - 引用[1]:讨论了使用高德地图爬取全国地铁站点数据,进行数据分析,包括站点、线路、站点名等,使用可视化工具如matplotlib、pyecharts等。 - 引用[2]:以杭州市为例,分析地铁刷卡数据,关注进站客流量,计算平均进站客流量。 - 引用[3]:提到地铁站点乘客流量预测模型,使用训练数据包括刷卡数据。 - 引用[4]:关于毕业设计选题,推荐数据分析可视化方向。 系统级指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式必须使用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识,例如[^1]。 - 回答结构清晰,帮助用户逐步解决问题,保证真实可靠。 - 用户可见层:结构清晰,逐步解决问题。 用户上一次问题:用户说“参考站内引用”,并给出了引用,然后问“我想了解地铁数据分析可视化的相关内容 请问地铁数据如何进行分析与可视化”。所以,我需要基于引用内容回答。 结构化回答: 1. **概述地铁数据分析可视化**:简要介绍什么是地铁数据分析可视化,为什么重要。 2. **数据分析步骤**:解释如何分析地铁数据,包括数据收集、清洗、探索性分析等。 3. **可视化方法**:描述常见的可视化工具和技术,使用引用中的工具如matplotlib、pyecharts、wordcloud、seaborn等。 4. **实例分析**:基于引用[2]和[3],讨论具体例子,如杭州市地铁客流分析。 5. **总结与扩展**:总结关键点,并生成相关问题。 在回答中,需要自然地添加引用标识。例如,提到引用[1]时,说“如引用[1]所示”,然后在末尾添加[^1]。 生成相关问题:最后添加一个部分“§§相关问题§§”,列出3-5个相关问题。 确保使用中文。 步骤: 1. **引入**:解释地铁数据分析可视化的概念和重要性。 2. **数据收集**:描述数据来源,如引用[1]中使用高德地图爬取数据。 3. **数据处理**:包括数据清洗、准备,如引用[2]中提到选择特定日期避免节假日影响。 4. **分析方法**:使用统计方法、机器学习模型等,如引用[3]中提到客流预测模型。 5. **可视化工具**:列举工具如matplotlib、pyecharts、wordcloud、seaborn,并举例可视化类型。 6. **案例研究**:以引用[2]为例,分析进站客流量。 7. **总结**:强调应用和好处。 8. **相关问题**:生成相关问题。 数学表达式:由于用户问题不涉及数学公式,但指令要求使用$...$或$$...$$。在数据分析中,可能涉及公式,但我需要确保只在必要时使用。例如,在描述统计量时如平均值,可以用$ \mu $ 或类似。但用户问题中没有明确数学需求,所以可能不需要。如果需要,就自然添加,比如在讨论客流预测时。 现在,构建回答框架: - **开头**:直接回答问题,概述地铁数据分析可视化的过程。 - **主体**: - 步骤1: 数据收集(参考引用[1]和[3]) - 步骤2: 数据预处理(清洗、过滤,参考引用[2]) - 步骤3: 数据分析方法(描述性分析、预测模型,参考引用[3]) - 步骤4: 可视化实现(工具和图表类型,参考引用[1]) - 实例:杭州市地铁分析(参考引用[2]) - **结尾**:总结好处,生成相关问题。 在引用时,自然地添加标识。例如: - “通过高德地图爬取地铁站点数据[^1]” - 在段落末尾,添加引用标记。 最终,相关问题: 1. 地铁客流预测模型如何构建? 2. 使用哪些可视化工具最适合地铁数据? 3. 如何避免节假日对地铁数据分析的影响?[基于引用[2]] 4. 地铁数据分析在毕业设计中如何应用?[基于引用[4]] 确保回答真实可靠:基于提供的引用内容,不要添加虚构信息。 </think>### 地铁数据分析可视化方法 地铁数据分析可视化是通过处理地铁相关数据(如刷卡记录、站点位置、客流信息等),提取有价值的信息,并用图表直观展示的过程。这有助于城市交通规划、运营优化和决策支持。以下是基于引用内容的逐步解析,确保方法真实可靠,适用于实际项目如毕业设计或行业应用[^4]。 #### 1. **数据收集与预处理** 地铁数据通常来自多个来源: - **数据来源**:如引用[1]所示,可通过高德地图API爬取全国地铁站点数据(包括站点名、线路名、位置坐标等)。引用[3]提到,刷卡数据(如进出站记录)可通过CSV文件获取,例如杭州地铁的7000万条刷卡记录存储在类似`record_2019-01-01.csv`的文件中。 - **数据清洗**:处理缺失值、异常值或重复记录。例如,引用[2]强调需过滤节假日数据(如选择2019年1月8日至14日的周内数据),以避免客流波动影响分析准确性。这一步使用Python库如Pandas进行数据清洗和格式化。 - **数据整合**:将站点信息与路网地图(如`Metro_roadMap.csv`)结合,构建完整的地铁网络模型[^3]。 #### 2. **核心分析方法** 地铁数据分析侧重于描述性统计和预测模型: - **描述性分析**:计算关键指标如客流量均值、高峰时段分布。例如,引用[2]计算三条地铁线路的平均进站客流量(公式为平均进站客流量$ \mu = \frac{\sum \text{进站记录数}}{\text{天数}} $),并分析客流分布。 - **预测模型**:针对未来客流,引用[3]提到使用机器学习模型(如时间序列分析或回归模型)训练数据,预测站点流量。模型输入包括历史刷卡数据、日期、天气等因素。 - **关联分析**:如引用[1]所做,探索站点数量与城市大学数量的相关性,或线路间的换乘模式。 #### 3. **可视化实现** 可视化是核心环节,使用Python工具将数据转化为图表: - **工具选择**: - `matplotlib`和`seaborn`:用于基本图表如折线图(展示客流趋势)、柱状图(比较线路客流量)[^1]。 - `pyecharts`:生成交互式地图,展示站点分布或热力图(如客流密度),如引用[1]对全国5968个站点的可视化。 - `wordcloud`:分析站点名频率,生成词云图突出高频名称。 - **常见图表类型**: - **客流热力图**:显示各站点高峰时段,便于识别拥堵点。 - **线路对比图**:如引用[2]的案例,用条形图比较A线、B线、C线的平均进站量。 - **网络拓扑图**:基于路网数据,用图结构展示站点连接关系。 - **实例**:在杭州市分析中,可视化一周进站客流,揭示早高峰特征(如8:00-9:00客流激增),辅助运营调度[^2]。 #### 4. **应用与总结** 这种方法广泛应用于: - **城市交通优化**:如预测客流高峰,调整列车班次。 - **学术研究**:毕业设计选题(引用[4])可结合此方法,分析本地地铁数据。 - **商业决策**:评估新线路规划的影响。 通过分析,可发现模式如“站点密集区与大学分布正相关”[^1],但需注意数据质量(如避免节假日偏差)。整体过程强调工具链整合:Pandas(数据处理)、Scikit-learn(模型)、可视化库(展示)。
评论 376
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值