26、特征存储与特征工程设计

特征存储与特征工程设计

1. 特征存储概述

特征存储是一种强大的设计模式,它将多种技术整合为一个单一实体,使团队能够在一个集中的中心为其机器学习管道计算、存储、聚合、测试、记录和监控特征。下面通过两个实际案例来了解特征工程的重要性。

1.1 动态定价项目案例

在一个与动态定价相关的项目中,模型的性能需要提升。经过错误分析,发现大部分错误是由销售数量大的SKU造成的。进一步研究表明,一些基于价格历史的特征很关键,而其他特征不太重要。通过Lasso回归过滤掉不重要的特征,简化了模型。在减少特征数量后,使用简单的特征交互变得更可行。但最初由于特定的预处理,效果不佳。后来调整缩放范围到(1..10),将数字转换为float16以减少内存消耗,应用多项式特征交互,再缩放回1 - 10并训练简单的Ridge回归,最终将误差降低了30%。此前尝试使用更复杂的模型(如梯度提升和神经网络)来改进模型,但事实证明,投资于特征工程是一条更短的路径。

1.2 文本分类系统案例

在一个文本分类系统中,需要根据交易描述和额外属性对交易进行分类。基于Transformer的模型在文本处理中表现出色,但处理额外属性并不容易。最终解决方案是基于类似BERT的Transformer模型,使用多组件提示作为输入,该提示包含文本输入和从交易属性手工制作的各种特征。处理这些特征(包括特征重要性分析和特征选择)比典型的深度学习模型改进(如骨干预训练或复杂的损失函数)更有助于提高系统的目标指标。

2. 缺乏特征存储的问题

如果没有特征存储,可能会出现以下问题:
- 重复劳动:不同团队可能会重复实现和测试相同的特征,浪费大量时

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值