第6章 术:使用技法与重要问题
1、标签规范
数据必须转化成能解决业务问题、提升业务效率的标签才具有价值,否则就是数据负累。将数据提炼转化为标签的过程称为“标签化”,标签化需要充分考虑两大因素:
- 是否具有数据可行性,是否有原始珊瑚橘可用于加工成标签;
- 是否能体现业务价值,即是否为业务核心需要或者能创新业务场景。
标签化的核心是用数据思维去理解、抽象、提炼业务场景并解决业务问题。在标签化的过程中,需要有标签规范对其进行标准作业指导。
1.1 标签化
1.1.1 根目录指向标签所属的对象
根目录往往是一种较为模糊、宽泛、简单的名词或动名词。在数据物理层面往往映射为某张大宽表中的主键,这张大宽表中的信息都是对该主键对象的详细刻画和数据记录:大宽表的列即映射为标签,大宽表的行记录则对应于具体的对象在各标签属性上的具体属性值记录。
1.1.2 类目是对标签的分类
类目往往由名词构成。一个类目及其所归类的标签在数据物理层面可和某张具体表对应。多张主键相同但信息类型不同的数据表关联在一起就可以形成该主键对象下的大宽表。
1.1.3 标签是对象的属性,颗粒度到字段级
标签一般对应于某数据库中某张数据表中的某字段。
1.1.4 标签值是对象属性的具体取值
标签值一般对应于数据库中某张数据表中的某字段取值。
1.2 元标签
标签的标签称为元标签。元标签是对标签对象的属性描述,旨在采用业务化的术语,帮助前端业务更好地理解标签。
1.2.1 标签所属根目录
标签所属根目录是指该标签是哪个对象的标签。
1.2.2 标签所属类目
标签所属类目就是上文提到的标签所属一级目录、二级目录、三极目录等。
1.2.3 标签名
标签命名应遵循三大原则:避免产生侵犯隐私的误解,同一标签使用同一标签名称,同类标签使用同类语句结构。标签命名的基本规范如下:
(1)格式规范
同一个标签应归一为相同的标签名称,同类标签使用同类语句结构。
(2)用词规范
- 不建议使用“身份证”“轨迹”“定位”“追踪”“GPS”“用户习惯”“意图”“未成年人”等词,这些词属于敏感词,容易引起不必要的关注和排查。
- 对于算法模型产出的标签,建议标签名称前增加“预测”二字,如“预测是否有房”等
- 不适用歧视性用于,如“土包子”“男人婆”
- 用户爱好、意愿类的标签使用“偏好”结尾,例如“预测品牌偏好”等
- 行为习惯类标签中可单独使用“习惯”做动词,如“习惯上网时间段”
(3)内容规范
- 标签的数据计算内容中不应该统计未成年人的相关数据
- 标签数据必须合法取得或获得合法授权使用,不使用非法或灰色数据信息加工标签。
1.2.4 标签描述
对标签名用一两句话进行解释,避免标签名由于用词过于简短而存在歧义、模糊、多义等问题。
1.2.5 标签加工类型
标签根据加工类型的不同可分为原始类标签、统计类标签和算法类标签
(1)三类加工标签定义
- 原始类标签:原始数据表中就存在的字段,经过简单的规整后成为标签,即可被业务人员使用。
- 统计类标签:原始数据通过ETL加工,例如求和、平均、正则表达式、规则运算等简单数学函数运算
- 算法类标签:原始数据通过算法模型计算后的深加工类标签,例如经过模式识别、深度学习等算法模型运算后得出的综合评分、预测指数等
(2)三类加工标签与属性分类标签的联系
- 原始类标签往往是基础属性类标签,eg:会员注册登记的性别、年龄、姓名、手机号码等。基本属性直接描述某一类对象的属性、特征、信息,万网雷子基本信息表,其中重要的信息项可通过简单清洗、数据裁剪等方式转化为原始类标签,为业务人员所使用的。
- 统计类标签往往是行为习惯类标签,例如:最近一个月交易总金额等,往往是通过对原始交易记录、收藏记录、浏览记录进行ETL开发后得到。行为类数据由于明细项记录太多,通常都需要通过汇总开发后得到统计类符合标签,为业务人员所使用。
统计类复合标签的设计可参考以下设计模板,在原子标签基础上,增加维度信息去详细刻画或扩展某一类属性,即将【场景】+【时空修饰】+【计算方法】+【可修饰词】等信息联合作为修饰词。 |
A. 【场景】往往指的是某行为场景,例如电商交易、线下交易等。 |
B. 【时空修饰】指的是收缩到某时间纬度、某空间维度下对原子标签的统计,时间修饰有最近1天、最近7天等。空间修饰有华东区域、浙江区域、杭州区域、移动端等不同地域划分或渠道类型。 |
C. 【计算方法】指的是不同统计 |