字节跳动基于 Hudi 的机器学习应用场景

原创

于 2023-07-20 12:06:55 发布 · 4.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

动手点关注

干货不迷路

本文为 Apache Hudi 技术社区分享会第十期嘉宾分享文章，主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术，用于处理机器学习系统的离线数据流。同时，还会为大家揭秘流批一体样本生成的过程，分享对 Hudi 内核所做出的优化和改造，探索其在数据处理领域的实际应用和效果。文末更有专属彩蛋，新人优惠购福利，等着你来解锁！

本篇文章提纲如下：

业务场景

离线样本存储与迭代

流批一体的样本生成

功能与优化

1. 业务场景

为了让大家更容易理解接下来要讲的基于数据湖的样本存储和样本生成问题，文章先给大家简单介绍一些相关的基础概念。首先是机器学习系统的离线数据流架构，机器学习系统和其他线上服务系统类似，其中和样本有关的角色也比较集中。如下图所示，整个离线数据流架构分为流式和批式两种类型，其中的样本数据由两部分构成，分别是特征和标签。