30、机器学习中的数据处理与模型构建

机器学习中的数据处理与模型构建

1. 类别平衡

在分类问题中,可能会遇到不平衡的数据集。例如,在租赁数据里,不到 12% 的租赁时长超过 1800 秒。对于这种情况,可以给稀有类别更高的权重。实现方式有两种:一是传入明确的类别权重数组;二是让 BigQuery 根据逆频率设置类别权重。

以下是使用自动平衡方法的示例代码:

CREATE OR REPLACE MODEL ch09eu.bicycle_model_longrental_balanced 
TRANSFORM(* EXCEPT(start_date) 
          , IF(EXTRACT(dayofweek FROM start_date) BETWEEN 2 and 6, 'weekday', 
'weekend') as dayofweek 
          , ML.BUCKETIZE(EXTRACT(HOUR FROM start_date), [5, 10, 17]) AS hourofday 
          , start_date 
) 
OPTIONS(input_label_cols=['biketype'], model_type='logistic_reg', 
        data_split_method='seq',  
        data_split_eval_fraction=0.2,  
        data_split_col='start_date', 
        auto_class_weights=True) 

AS 

SELECT  
  IF(duration > 18
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值