丨目录:
1.背景
2.业务问题
3.业界解决方案
4.技术方案
5.应用示例
6.业务收益
7.总结
1. 背景
随着业务朝向精细化经营增长,阿里妈妈商家端营销产品更加聚焦客户投放体验,旨在帮助商家提升经营效果,在变化的市场中找到确定增长。近年来,商家端算法业务使用的数据是离线T+1甚至T+7更新,为进一步捕捉用户意图,更全面实时的挖掘潜在需求,利用实时行为及投放效果帮助广告主在成效预估、货品工具推荐等业务有更好效果,阿里妈妈数据引擎团队从21年开始在数据实时化开发方面进行探索尝试,从实时角度助力商家端算法第二增长曲线。

2. 业务问题
与用户端(C端)相比,商家端(B端)算法业务更具多样性,但对实时数据的使用还处于启蒙阶段。目前面向C端的实时开发服务已经很成熟,但开放的能力比较基础,且这些能力主要面向工程同学,但在实际B端场景中,因算法工程支持资源有限,而算法同学自己直接开发实时作业成本较高,不仅需要学习了解上游实时数据源订阅信息,还需要了解不同存储引擎选型等工程技术支持,例如Igraph(阿里集团内部KV存储引擎)、Lindorm(阿里云多模存储引擎)和Hologres(阿里云HTAP存储引擎)等,所以需要有一个更算法友好的开发平台,实现让非工程同学也能轻松开发实时作业。
那么,对于算法同学什么开发方式最简单?因为算法同学对SQL非常熟悉,每天大量工作都在Dataworks(Dataworks是阿里集团大数据开发平台)完成,所以能让实时作业SQL化开发是平台确定方向。目前Flink已经可以提供SQL化开发,但仅提供基础实时计算开发能力,存储方面需要自己选择,对于非工程技术人员仍有较高的学习成本,故期望如下能力:
屏蔽底层细节的SQL化开发,不仅开发SQL化,还可以帮助用户屏蔽底层存储和上层数据源配置信息,降低学习及开发成本;
统一的数据中心,从实时开发的数据获取、开发调试及上线End2End一体化,提升开发效能。
3. 业界解决方案
如何更高效开发实时作业,业界有很多尝试和探索。
3.1 集团内部解决方案
在集团内部,经常使用的实时化产品有AMC特征中心和蚂蚁特征服务平台等,它们体系化建设完善且功能全面,但大多是工程同学使用,有一定开发使用成本。
3.1.1 AMC特征中心
AMC是特征样本平台,解决主搜场景算法同学特征迭代遇到的问题,提供复杂特征开发和统一特征管理问题。

在复杂特征开发方面提供TableApi,支持算法自助开发复杂特征,该方案灵活性比较高,但是从算法开发体验和debug角度看,成本仍然较高。
3.1.2 蚂蚁特征服务平台
蚂蚁提供全平台统一的特征服务平台,提供特征管理、服务、分析和计算等能力。