深度学习中的异构特征介绍

部署运行你感兴趣的模型镜像

深度学习,特别是现在的大模型,数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征,这些特征类型不同、来源不同,因此称之为”异构特征“。这些特征没有一个明确的结构来描述它们之间的关系,这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括:

  • 高基数 ids:每个实体的唯一标识。

  • 交叉特征:两个或多个特征之间的组合关系。

  • 计数特征:某个特征出现的次数。

  • 比例特征:某个特征在整体中的占比。

异构特征

“异构”表示这些特征的类型和来源各不相同,不是单一的、统一的。具体来说,这些特征包括:

  1. 高基数 ids

    • 通俗解释:想象一下,你有一个巨大的图书馆,每本书都有一个独一无二的编号。这些编号就是“高基数 ids”,因为它们的数量非常多,而且每个编号都是唯一的。在数据中,这可能是一个用户的ID、一个商品的ID等,每个ID代表一个不同的实体。

  2. 交叉特征

    • 通俗解释:假设你有一个菜谱,里面列出了各种食材。如果你想知道哪些食材经常一起使用,比如“番茄和鸡蛋”、“土豆和洋葱”,这些组合就是“交叉特征”。在数据中,这可能是一个用户同时喜欢的两个品牌、一个用户在两个不同时间段的行为等,它们是两个或多个特征之间的组合关系。

  3. 计数特征

    • 通俗解释:想象你有一个篮子,里面装着不同颜色的球。你数了数,发现有5个红球、3个蓝球、2个绿球。这些数字(5、3、2)就是“计数特征”,它们表示某个特征出现的次数。在数据中,这可能是一个用户点击某个广告的次数、一个用户购买某个商品的次数等。

  4. 比例特征

    • 通俗解释:假设你有一个班级,里面有30个学生,其中20个是男生,10个是女生。男生的比例是2/3,女生的比例是1/3。这些比例(2/3、1/3)就是“比例特征”,它们表示某个特征在整体中的占比。在数据中,这可能是一个用户购买某个商品的比例、一个用户点击某个广告的比例等。

总结

深度学习,特别是现在的大模型,数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征,这些特征类型不同、来源不同,而且没有一个明确的结构来描述它们之间的关系,这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括:

  • 高基数 ids:每个实体的唯一标识。

  • 交叉特征:两个或多个特征之间的组合关系。

  • 计数特征:某个特征出现的次数。

  • 比例特征:某个特征在整体中的占比。

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值