5、机器学习中的特征处理设计模式:哈希特征与嵌入

机器学习中的特征处理设计模式:哈希特征与嵌入

1. 哈希特征设计模式

1.1 问题提出

在处理分类特征时,独热编码(One-hot encoding)虽然常用,但存在一些问题。以预测航班到达延误问题为例,当分类变量是出发机场时,会面临以下挑战:
- 词汇表不完整 :由于随机采样,训练数据可能不包含所有可能的机场,导致词汇表缺失部分信息。例如美国有347个机场,部分机场航班极少,训练数据词汇表很可能不完整。
- 高基数问题 :分类变量的基数过高,特征向量长度可能达到数千甚至数百万。这会使训练数据可能不足以学习大量权重,且训练后的模型存储需要大量空间,难以部署在小型设备上。
- 冷启动问题 :模型投入生产后,可能会有新机场建成,模型无法对这些新机场进行预测,需要单独的服务基础设施来处理。

1.2 解决方案

哈希特征设计模式通过以下步骤表示分类输入变量:
1. 转换为唯一字符串 :对于出发机场,可使用机场的三位国际航空运输协会(IATA)代码。
2. 调用哈希算法 :使用确定性(无随机种子或盐)且可移植(训练和服务阶段均可使用相同算法)的哈希算法对字符串进行处理。
3. 取模运算 :将哈希结果除以所需的桶数,取余数。由于哈希算法返回的整数可能为负,所以取结果的绝对值。

在BigQuery SQL中,实现代码如下:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值