公交车到站预测1----python处理csv文件

博主分享了在处理大量公交车数据时,从依赖pandas转向使用Python基础操作的原因,强调简单方法的优越性。通过Excel预处理数据,利用透视图、筛选和颜色标记等功能,最终得到适合聚类分析的格式。现在计划用Python的字典嵌套结构进一步处理数据,以实现公交站点到站时间的预测。

之前处理csv一直用pandas,今天发现,pandas虽然强大,但是灵活度少了很多,有时候想实现一些简单的功能可能要花很大的代价。大道至简,返璞归真。就像这几天用excel一样,利用简单的规则就可以完成很多任务,不必要动不动就用vba去处理,吃力不讨好。有时候要跳出这样的逻辑陷阱,简单的或者就是最好的。

前两天把公交车的数据用excel处理了一下,最后希望能够把一段路的行驶状况变成一个记录,然后可以用聚类的方法归类,实现站点到站时间预测。但是数据量比较大,如果分成上千个记录用excel做的话,似乎会崩溃很多次,而且存储也显得麻烦,所以还是交给python了。

用透视图、筛选、上色等各种方法,算是把excel的功能挖掘光了。最后得到的数据大概就是这样。


a开头的单元格表示一条记录的开始。接下来就用python处理了,可以利用字典嵌套,一级key就是记录标号,如a1,a2.内部的key就是车站为key,到站间隔和到站速度为value。

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 14 21:41:20 2016

@author: Luyixiao
"""
import csv#import the csv module

def csv2dict(path):
    reader = csv.reader(open(path,'rb'))
    csvList = []
    startNoList=[]
    stationKey = {}
    sectList = []
    li =[]
    tempKey = {}
    for li
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

钱塘小甲子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值