DeepGBM模型总结

基于GBDT的在线预测任务深度学习框架
A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks
https://github.com/motefly/DeepGBM
该框架主要使用CatNN、GBDT2NN两部分实现非结构化数据和结构化数据同时处理。
本文优点:
(1):CatNN主要侧重于处理Spares Categories Feature;
(2):GBDT2NN主要侧重于处理Dense Numerical Feature;
(3):online update端到端训练与在线更新
GBDT2NN解决FC全链接层稠密数值特征学习超平面优化陷入局部最优问题

catnn主要利用了embedding嵌入技术将高维度稀疏向量转为稠密向量,GBDT2NN采用GBDT
将数据划分为区域聚类成叶子,然后使用神经网络逼近树结构输出并蒸馏并且扩展到多树
逼近神经网络模型。
训练过程:
离线训练获得GBDT模型,然后GBDT叶子节点嵌入实现端到端训练。在线更新离线模型
时候丢弃分类任务交叉熵损失函数来达到更新嵌入学习部分而不改变GBDT数的特征从而保
证更新有效性。

### 关于深度学习 ET 模型的介绍 ET 模型通常指的是 **Exponential Time (ET)** 类型的模型或者某些特定领域中的扩展时间序列预测模型。然而,在当前语境下,如果提到的是与深度学习相关的 ET 模型,则可能涉及以下几种情况: #### 1. 时间序列建模中的 ET 模型 在时间序列分析中,ET 模型可以指代一种结合指数平滑方法(Exponential Smoothing)和深度学习框架的时间序列预测工具。这类模型通过引入注意力机制或 Transformer 架构来提升长期依赖关系的学习效果[^1]。 例如,Transformer 的变体——Temporal Fusion Transformers (TFT),是一种专门用于时间序列预测的强大模型。它融合了 LSTM 和 Transformer 的优势,能够在多变量输入的情况下提供高精度的预测结果。以下是 TFT 的核心特点: - 利用门控机制控制短期记忆和长期记忆的信息流动。 - 结合自注意力机制捕获全局模式。 - 支持多种外生变量作为额外输入。 ```python import pytorch_forecasting from pytorch_forecasting.models import TemporalFusionTransformer # 数据准备 data = ... # 加载时间序列数据集 training, validation = data.split([0.7, 0.3]) # 定义模型配置 tft = TemporalFusionTransformer.from_dataset( training, learning_rate=0.01, hidden_size=16, attention_head_size=4, dropout=0.1 ) # 训练过程 trainer = pytorch_lightning.Trainer(max_epochs=10) trainer.fit(tft, train_dataloader=train_loader, val_dataloaders=val_loader) ``` 上述代码展示了如何使用 PyTorch Forecasting 库快速构建一个 TFT 模型,并完成基本训练流程[^2]。 --- #### 2. 增强表征学习的混合架构 另一种可能性是 ET 模型代表了一种增强表征学习的技术栈。在这种情况下,可以参考混合架构的设计理念,比如 NODE(Neural Ordinary Differential Equations)或 DeepGBM 提到的方法。这些模型尝试将传统机器学习算法(如决策树)与现代深度学习技术相结合,从而实现更优的效果。 具体来说,DeepGBM 是一种集成 XGBoost 和神经网络的解决方案,适用于结构化表格数据的任务。其主要思路如下: - 首先利用 Gradient Boosted Decision Trees (GBDT) 对原始特征进行预处理; - 接着将 GBDT 输出的概率分布映射至连续空间; - 最终送入一个多层感知机 (MLP) 进一步提取高层次抽象特征。 这种方法不仅继承了决策树良好的解释性特性,同时也保留了神经网络强大的表达能力[^3]。 --- #### 3. 调整超参数以优化性能 无论采用哪种具体的 ET 模型形式,合理的超参数设置始终至关重要。对于大多数深度学习项目而言,初始学习率的选择往往是决定收敛速度的关键因素之一。尽管存在通用指导原则,但最佳值仍需依据实际场景灵活调整。 此外,当涉及到从全连接层向卷积操作迁移时,是否沿用已有权重取决于目标应用场景的具体需求。部分研究表明直接复用旧参数可能会带来一定收益;但也有人主张重新初始化并逐步微调新加入的部分,以便适应新的计算逻辑[^4]。 --- ### 总结 综上所述,“ET 模型”可以根据上下文指向不同方向的研究主题。如果是专注于时间维度上的动态变化规律挖掘,则推荐探索基于 Transformer 的先进方案;而对于那些希望兼顾效率与精确度之间平衡点的朋友来说,不妨考虑采纳类似 DeepGBM 的复合策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值