用户画像一般包含三种画像:基础画像(base_info_da)、行为画像(action_info_da)、偏好画像(prefer_info_da)。
- 基础画像:用户的年龄、性别、婚姻状态,还有挖掘类标签也可融入其中,如用户生命周期、留存率、流失率等。
- 行为画像:比如用户近X天在Y维度下访问、关注商品的次数。(X可以是1、3、7、100天,Y可以是比如裤子类、羽绒服类、夹克类)
- 偏好画像:根据用户X的行为数据,进行时间衰减和不同行为的权重计算出偏好。(比如裤子类中,用户对休闲裤的偏好是0.6,牛仔裤的偏好是0.4)
用户画像需要买足三个特性:一致性、快速产出、快速迭代。
- 一致性:各种画像数据能够对得上。(用户近7天有牛仔裤页面的访问,但是没有裤子类的偏好)
- 快速产出:离线画像T+1,越早产出业务方使用效果越好。
- 快速迭代:快速优化、新增画像数据到画像。(比如用户偏好增加用户行为,新增一个维度的用户偏好)
基于上述特性,开始进行设计:
- mapped层:要有一份最全的行为数据,包括线上、线下、商机,详情页、非详情页、主页、各种频道页面,只要是和用户有关的数据都要包含。
- action层:从mapped取到和某件商品(主体)直接关联的数据,比如裤子页面的访问数据需要,裤子列表页的数据不需要。
- 目前有了各种用户数据,就需要思考每种画像所需的数据是什