30、机器学习中的数据处理与模型构建

git9versioner

于 2025-08-31 10:26:43 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏： BigQuery权威指南精要文章标签：机器学习数据处理模型构建

本文链接：https://blog.youkuaiyun.com/git9versioner/article/details/151248958

BigQuery权威指南精要专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的数据处理与模型构建

1. 类别平衡

在分类问题中，可能会遇到不平衡的数据集。例如，在租赁数据里，不到 12% 的租赁时长超过 1800 秒。对于这种情况，可以给稀有类别更高的权重。实现方式有两种：一是传入明确的类别权重数组；二是让 BigQuery 根据逆频率设置类别权重。

以下是使用自动平衡方法的示例代码：

CREATE OR REPLACE MODEL ch09eu.bicycle_model_longrental_balanced 
TRANSFORM(* EXCEPT(start_date) 
          , IF(EXTRACT(dayofweek FROM start_date) BETWEEN 2 and 6, 'weekday', 
'weekend') as dayofweek 
          , ML.BUCKETIZE(EXTRACT(HOUR FROM start_date), [5, 10, 17]) AS hourofday 
          , start_date 
) 
OPTIONS(input_label_cols=['biketype'], model_type='logistic_reg', 
        data_split_method='seq',  
        data_split_eval_fraction=0.2,  
        data_split_col='start_date', 
        auto_class_weights=True) 

AS 

SELECT  
  IF(duration > 18