DCIC-A城市巡游车与网约车运营特征对比分析-2-可视化

这篇博客分析了A城市2020年端午前一周的巡游车GPS数据,探讨了数据读取、异常值处理、统计分析等问题。通过对经纬度的检查发现错误值,采用插值法进行修复。此外,讨论了如何统计车辆运行时间和行驶距离,并介绍了数据可视化的基本元素,如画板、坐标轴和图例。同时,提出了巡游车运营时间最长的统计方法和运营规律探索作为后续任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接前述,数据读取
上次遗留下两个问题:

  • 1、该案例的数据集过多 ,如果每次读一个数据的部分行(比如10000行),那在拼接所有数据集的时候也是每个数据只读10000行吗??
    回答:虽然我们通过更改数据类型,使得原始数据的大小有所改变,但如果想要把所有的数据集合拼接读取出来,也是依旧对内存有一定要求的。

  • 2、对于表字段含义的理解,我们接下来将以taxiGps20200619.csv为例进行字段含义的说明

  • 简介

2020年端午前一周A城市巡游车GPS数据,文件名:taxiGps20190603.zip

  • 具体数据项

CARNO:车牌号、
LATITUDE:纬度(WGS84 GPS标准)、
LONGITUDE:经度(WGS84 GPS标准)、
GPS_DATE:卫星定位时间、
DIRECTION:行驶方向角、
SPEED:GPS速度、
RUNNING_STATUS/OPERATING_STATUS: 运营状态(空车(1)、载客(2)、电召(4)、停运(8)、交班(16)、包车(32))

  • 数据范围

20190603A城市巡游车GPS数据,预估(635M,2000万条)

原数据
从描述统计来看,我们可以发现,经度和纬度存在0值,表明存在错误,这个问题可以尝试平滑插值。

另外,可以看到GPS速度的最大值为1922,不合常理。
原数据的描述性统计

注意:行驶方向角即汽车前进的方向。

  • 查看是否有缺失值
df.isnull().sum()

熟悉一下数据:
taxiGps20190603这个数据集中有6727辆车,涉及到的运营状态有三种,分别为1,6,8【运营状态(空车(1)、载客(2)、电召(4)、停运(8)、交班(16)、包车(32))】。
<

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值