数据科学中的多面探索与实战经验
1. 城市交通数据的价值
城市交通的深入理解离不开对数据的有效运用。出租车出行时间可作为一种精细测量城市交通流量的传感器。我们可以借此了解高峰时段交通比其他时段慢多少,以及哪些地方的交通延误最为严重。识别出问题区域后,就能有针对性地提出解决方案,比如调整交通信号灯的时间模式、增加公交车运营数量或者设置高承载专用车道。
同时,出租车数据还能用于测量城市的交通流量。通过分析不同时间段人们的出行目的地,我们能获取比单纯的拥堵信息更多的内容。从出租车数据中,我们可以看到游客从酒店前往景点、企业高管从高档社区前往华尔街,以及醉酒者在狂欢后从夜总会回家的情况。
这类数据对于设计更完善的交通系统至关重要。例如,当有两名乘客的出发地相近且目的地相同时,若让他们拼车出行,就能避免资源浪费。对出租车数据的分析可以准确模拟拼车系统,从而评估该服务的需求和成本降低情况。
2. 数据的不同属性
2.1 结构化数据与非结构化数据
数据可分为结构化数据和非结构化数据。结构化数据就像数据库或电子表格中的表格一样,具有良好的组织结构。而非结构化数据则以更复杂多样的方式记录世界的信息,例如像维基百科那样包含图像和链接的大型文本语料库,或者个人医疗记录中复杂的笔记和测试结果组合。
通常,我们会更关注结构化数据。数据常以矩阵形式表示,矩阵的行代表不同的项目或记录,列代表这些项目的不同属性。例如,关于美国城市的数据集可能每行代表一个城市,列则代表州、人口和面积等特征。
当面对非结构化数据源,如推特上的推文集合时,我们通常首先要构建一个矩阵来对其进行结构化处理。词袋模型会为每条推文创建
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



