数据建模与损失函数:以公交晚点为例
1. 数据建模基础与常量模型引入
在数据建模中,数据范围和数据生成机制至关重要。良好的数据范围和具有代表性的数据是从数据中提取有用信息的基础,这些信息常被称为数据中的信号。我们使用模型来近似这个信号,其中最简单的是常量模型,它用一个单一的数字(如均值、中位数或众数)来近似信号。
以公交晚点数据为例,一位名叫 Jake 的公交乘客经常在西雅图市中心的第 3 大道与派克街公交站乘坐北行的 C 线公交。公交本应每 10 分钟到达一次,但 Jake 发现自己有时要等很久。他从华盛顿州交通中心获取了公交的预定到达时间和实际到达时间,从而计算出每趟公交的晚点分钟数。
import pandas as pd
times = pd.read_csv('data/seattle_bus_times_NC.csv')
print(times)
数据表格中的 minutes_late 列记录了每趟公交的晚点情况,部分时间为负数,意味着公交提前到达。通过绘制该列的直方图,我们可以观察到一些有趣的模式:许多公交提前到达,但也有一些晚点超过 20 分钟,并且在 0 处有一个明显的峰值,表明很多公交大致准时到达。
import plotly.express as px
fig = px.histogram(times, x='minutes_late', width=450, height=250)
fig.update_xaxes(range=[-12, 60
公交晚点数据建模与损失函数分析
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



