深度学习中的异构特征介绍

原创于 2025-02-07 15:11:02 发布 · 758 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

深度学习，特别是现在的大模型，数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征，这些特征类型不同、来源不同，因此称之为”异构特征“。这些特征没有一个明确的结构来描述它们之间的关系，这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括：

高基数 ids：每个实体的唯一标识。
交叉特征：两个或多个特征之间的组合关系。
计数特征：某个特征出现的次数。
比例特征：某个特征在整体中的占比。

异构特征

“异构”表示这些特征的类型和来源各不相同，不是单一的、统一的。具体来说，这些特征包括：

高基数 ids：
- 通俗解释：想象一下，你有一个巨大的图书馆，每本书都有一个独一无二的编号。这些编号就是“高基数 ids”，因为它们的数量非常多，而且每个编号都是唯一的。在数据中，这可能是一个用户的ID、一个商品的ID等，每个ID代表一个不同的实体。
交叉特征：
- 通俗解释：假设你有一个菜谱，里面列出了各种食材。如果你想知道哪些食材经常一起使用，比如“番茄和鸡蛋”、“土豆和洋葱”，这些组合就是“交叉特征”。在数据中，这可能是一个用户同时喜欢的两个品牌、一个用户在两个不同时间段的行为等，它们是两个或多个特征之间的组合关系。
计数特征：
- 通俗解释：想象你有一个篮子，里面装着不同颜色的球。你数了数，发现有5个红球、3个蓝球、2个绿球。这些数字（5、3、2）就是“计数特征”，它们表示某个特征出现的次数。在数据中，这可能是一个用户点击某个广告的次数、一个用户购买某个商品的次数等。
比例特征：
- 通俗解释：假设你有一个班级，里面有30个学生，其中20个是男生，10个是女生。男生的比例是2/3，女生的比例是1/3。这些比例（2/3、1/3）就是“比例特征”，它们表示某个特征在整体中的占比。在数据中，这可能是一个用户购买某个商品的比例、一个用户点击某个广告的比例等。