YAML 配置文件

YAML 配置文件用于定义 sparse 特征(稀疏特征) 

YAML 配置文件的核心作用是桥接原始数据与模型。它明确告诉了系统:

  1. 如何处理原始数据中的稀疏字段。
  2. 为这些字段创建多大的嵌入矩阵。
  3. 将这些字段映射到多少维的向量。
  4. 如何共享这些嵌入权重。

通过修改这个配置文件,你可以轻松地实验不同的特征组合、嵌入维度、哈希空间大小等,而无需修改核心模型代码。

配置背后的工作原理

当你定义了这样一个 YAML 文件后,机器学习平台(如 PaddleRec、DeepCTR 等)的特征工程模型构建模块会:

  1. 数据解析:根据 expression,从原始数据中解析出每个样本的 user_id 原始值(例如 123456)。
  2. 特征转换
    • 对于整数ID:直接将其作为索引。如果值 >= boundary,通常会进行取模操作 (123456 % 1000000) 以保证索引不越界。
    • 对于字符串:先进行哈希 hash("Sci-Fi") % hash_size,得到索引。
  3. 嵌入查找 (Forward Pass)
    • 系统会初始化一个可训练的嵌入矩阵,其形状为 (boundary或hash_size, embedding_dim)
    • 在模型前向传播时,根据转换后的索引,从对应的嵌入矩阵中查找出对应的 embedding_dim 维向量。
    • 例如:embedding_matrix = [ [0.1, 0.2, ...], ..., [0.4, 0.5, ...] ] # shape: [1000000, 16]
    • 索引 123456 对应的向量就是 embedding_matrix[123456]
  4. 输入模型:查找出的嵌入向量将作为神经网络下一层的输入。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值