机器学习中的数据处理与模型构建
1. 类别平衡
在分类问题中,可能会遇到不平衡的数据集。例如,在租赁数据里,不到 12% 的租赁时长超过 1800 秒。对于这种情况,可以给稀有类别更高的权重。实现方式有两种:一是传入明确的类别权重数组;二是让 BigQuery 根据逆频率设置类别权重。
以下是使用自动平衡方法的示例代码:
CREATE OR REPLACE MODEL ch09eu.bicycle_model_longrental_balanced
TRANSFORM(* EXCEPT(start_date)
, IF(EXTRACT(dayofweek FROM start_date) BETWEEN 2 and 6, 'weekday',
'weekend') as dayofweek
, ML.BUCKETIZE(EXTRACT(HOUR FROM start_date), [5, 10, 17]) AS hourofday
, start_date
)
OPTIONS(input_label_cols=['biketype'], model_type='logistic_reg',
data_split_method='seq',
data_split_eval_fraction=0.2,
data_split_col='start_date',
auto_class_weights=True)
AS
SELECT
IF(duration > 18
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



