机器学习中的数据处理与模型构建实战
1. 数据类别平衡
在分类问题中,若数据集中某一类别的样本占比过少,就会形成不平衡数据集。例如,在租赁时长的分类问题里,租赁时长超过 1800 秒的样本占比不到 12%。对于这种情况,可以通过提高稀有类别的权重来处理,具体有两种方式:一是传入明确的类别权重数组;二是让 BigQuery 根据逆频率设置类别权重。
以下是使用自动平衡方法的示例代码:
CREATE OR REPLACE MODEL ch09eu.bicycle_model_longrental_balanced
TRANSFORM(* EXCEPT(start_date)
, IF(EXTRACT(dayofweek FROM start_date) BETWEEN 2 and 6, 'weekday',
'weekend') as dayofweek
, ML.BUCKETIZE(EXTRACT(HOUR FROM start_date), [5, 10, 17]) AS hourofday
, start_date
)
OPTIONS(input_label_cols=['biketype'], model_type='logistic_reg',
data_split_method='seq',
data_split_eval_fraction=0.2,
data_split_col='start_date',
auto_class_weights=True)
AS
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



