机器学习中的数据表示与问题重构设计模式
1. 多模态特征表示与模型可解释性
深度学习模型的可解释性一直是个难题。即便模型达到了 99% 的准确率,我们也难以确切知晓它是如何做出预测的,更无法确定其预测方式是否正确。例如,在实验室培养皿图像上训练出的高精度模型,可能错误地利用图像中的注释进行预测,而非培养皿的实际内容。
虽然有一些技术可用于解释图像模型,突出影响模型预测的像素,但当在单一模型中结合多种数据表示时,这些特征相互依赖,导致解释模型的预测方式变得困难。
在数据表示方面,有多种方法:
- 数值输入处理 :对数值输入进行缩放可以加快模型训练速度并提高准确率。
- 分类输入特征工程 :采用独热编码和使用分类值数组等方式处理分类输入。
- 四种数据表示设计模式 :
- 哈希特征设计模式 :将分类输入编码为唯一字符串。例如,使用 BigQuery 中的机场数据集探索不同的哈希方法。
- 嵌入(Embeddings) :用于表示高基数数据,如具有众多可能类别的输入或文本数据。嵌入将数据表示在多维空间中,维度取决于数据和预测任务。
- 特征交叉(Feature Crosses) :将两个特征组合,以提取单独编码特征时难以捕捉的关系。
- 多模态输入表示 :解决如何将不同类型的输入组合到同一模型中,以及如何以多种方式表示单个特征的问题。
机器学习中的数据与问题重构
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



