特征存储与特征工程设计
1. 特征存储概述
特征存储是一种强大的设计模式,它将多种技术整合为一个单一实体,使团队能够在一个集中的中心为其机器学习管道计算、存储、聚合、测试、记录和监控特征。下面通过两个实际案例来了解特征工程的重要性。
1.1 动态定价项目案例
在一个与动态定价相关的项目中,模型的性能需要提升。经过错误分析,发现大部分错误是由销售数量大的SKU造成的。进一步研究表明,一些基于价格历史的特征很关键,而其他特征不太重要。通过Lasso回归过滤掉不重要的特征,简化了模型。在减少特征数量后,使用简单的特征交互变得更可行。但最初由于特定的预处理,效果不佳。后来调整缩放范围到(1..10),将数字转换为float16以减少内存消耗,应用多项式特征交互,再缩放回1 - 10并训练简单的Ridge回归,最终将误差降低了30%。此前尝试使用更复杂的模型(如梯度提升和神经网络)来改进模型,但事实证明,投资于特征工程是一条更短的路径。
1.2 文本分类系统案例
在一个文本分类系统中,需要根据交易描述和额外属性对交易进行分类。基于Transformer的模型在文本处理中表现出色,但处理额外属性并不容易。最终解决方案是基于类似BERT的Transformer模型,使用多组件提示作为输入,该提示包含文本输入和从交易属性手工制作的各种特征。处理这些特征(包括特征重要性分析和特征选择)比典型的深度学习模型改进(如骨干预训练或复杂的损失函数)更有助于提高系统的目标指标。
2. 缺乏特征存储的问题
如果没有特征存储,可能会出现以下问题:
- 重复劳动:不同团队可能会重复实现和测试相同的特征,浪费大量时
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



