18、数据科学中的数据处理与模型评估

数据科学中的数据处理与模型评估

1. 数据分割与模型评估

1.1 数据分割方法的选择

在处理数据时,我们需要将其划分为训练集和测试集。一种简单的方法是按月份分割,例如将 2015 年 1 - 9 月的数据作为训练集,10 - 12 月的数据作为测试集。然而,这种方法可能存在问题,因为不同季节的航班延误情况可能不同,夏季的延误可能在冬季无法弥补,这样分割出的训练集和测试集可能无法代表全年的数据。

为了解决这个问题,我们采取按日期分割的方法。具体步骤如下:
1. 获取数据集中所有唯一的日期:

#standardsql
SELECT
  DISTINCT(FL_DATE) AS FL_DATE
FROM
  flights.tzcorr
ORDER BY
  FL_DATE
  1. 随机选择其中 70% 的日期作为训练日:
#standardsql
SELECT
  FL_DATE,
  IF(MOD(ABS(FARM_FINGERPRINT(CAST(FL_DATE AS STRING))), 100) < 70,
     'True', 'False') AS is_train_day
FROM (
  SELECT
    DISTINCT(FL_DATE) AS FL_DATE
  FROM
    `flights.tzcorr`)
ORDER BY
  FL_DATE

在上述查询中,使用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值