深度学习,特别是现在的大模型,数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征,这些特征类型不同、来源不同,因此称之为”异构特征“。这些特征没有一个明确的结构来描述它们之间的关系,这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括:
-
高基数 ids:每个实体的唯一标识。
-
交叉特征:两个或多个特征之间的组合关系。
-
计数特征:某个特征出现的次数。
-
比例特征:某个特征在整体中的占比。
异构特征
“异构”表示这些特征的类型和来源各不相同,不是单一的、统一的。具体来说,这些特征包括:
-
高基数 ids:
-
通俗解释:想象一下,你有一个巨大的图书馆,每本书都有一个独一无二的编号。这些编号就是“高基数 ids”,因为它们的数量非常多,而且每个编号都是唯一的。在数据中,这可能是一个用户的ID、一个商品的ID等,每个ID代表一个不同的实体。
-
-
交叉特征:
-
通俗解释:假设你有一个菜谱,里面列出了各种食材。如果你想知道哪些食材经常一起使用,比如“番茄和鸡蛋”、“土豆和洋葱”,这些组合就是“交叉特征”。在数据中,这可能是一个用户同时喜欢的两个品牌、一个用户在两个不同时间段的行为等,它们是两个或多个特征之间的组合关系。
-
-
计数特征:
-
通俗解释:想象你有一个篮子,里面装着不同颜色的球。你数了数,发现有5个红球、3个蓝球、2个绿球。这些数字(5、3、2)就是“计数特征”,它们表示某个特征出现的次数。在数据中,这可能是一个用户点击某个广告的次数、一个用户购买某个商品的次数等。
-
-
比例特征:
-
通俗解释:假设你有一个班级,里面有30个学生,其中20个是男生,10个是女生。男生的比例是2/3,女生的比例是1/3。这些比例(2/3、1/3)就是“比例特征”,它们表示某个特征在整体中的占比。在数据中,这可能是一个用户购买某个商品的比例、一个用户点击某个广告的比例等。
-
总结
深度学习,特别是现在的大模型,数据永远是最紧要的基础和前提。数据中有大量的各种各样的特征,这些特征类型不同、来源不同,而且没有一个明确的结构来描述它们之间的关系,这些特征的多样性和复杂性给数据处理和分析带来了挑战。这些特征包括:
-
高基数 ids:每个实体的唯一标识。
-
交叉特征:两个或多个特征之间的组合关系。
-
计数特征:某个特征出现的次数。
-
比例特征:某个特征在整体中的占比。
1473

被折叠的 条评论
为什么被折叠?



