数据科学中的数据处理与模型评估
1. 数据分割与模型评估
1.1 数据分割方法的选择
在处理数据时,我们需要将其划分为训练集和测试集。一种简单的方法是按月份分割,例如将 2015 年 1 - 9 月的数据作为训练集,10 - 12 月的数据作为测试集。然而,这种方法可能存在问题,因为不同季节的航班延误情况可能不同,夏季的延误可能在冬季无法弥补,这样分割出的训练集和测试集可能无法代表全年的数据。
为了解决这个问题,我们采取按日期分割的方法。具体步骤如下:
1. 获取数据集中所有唯一的日期:
#standardsql
SELECT
DISTINCT(FL_DATE) AS FL_DATE
FROM
flights.tzcorr
ORDER BY
FL_DATE
- 随机选择其中 70% 的日期作为训练日:
#standardsql
SELECT
FL_DATE,
IF(MOD(ABS(FARM_FINGERPRINT(CAST(FL_DATE AS STRING))), 100) < 70,
'True', 'False') AS is_train_day
FROM (
SELECT
DISTINCT(FL_DATE) AS FL_DATE
FROM
`flights.tzcorr`)
ORDER BY
FL_DATE
在上述查询中,使用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



