读书笔记
书名:标签类目体系:面向业务的数据资产设计方法论
链接:微信读书链接
标签规范
标签化
- 根目录指向标签的所需的对象。
根目录往往是一种较为模糊、宽泛、简单的名词或动名词,例如用户、购房者、酒店、浏览(记录)、交易(记录)、报修(记录)。一切可以归类到人,物,关系一级类目的都是标签的根目录。
- 二级类目是对标签的分类
- 标签是对象的属性,颗粒度到字段级
- 标签值是对象属性的具体取值
- 使用元标签对标签进行业务解释
规范
- 格式规范:同一个标签应归一为相同的标签名称,例如对于交易金额类的标签,原子标签都应该统一命名成同一种,不能一会儿叫“交易金额”,一会儿叫“消费金额”。同类标签使用同类语句结构,时间维度+渠道维度+品类+原子标签,例如:最近1天移动端电子产品交易总金额。
- 不使用 “身份证”“轨迹”“定位”“追踪”“GPS”“用户习惯”“意图”“未成年人”等词,这些词语都属于敏感词,容易引起不必要的关注和排查。
- 对于算法模型产出的标签,建议标签名称前增加“预测”二字,如“预测是否有房”“预测职业”“预测年龄”等
- 用户爱好、意愿类的标签使用“偏好”结尾,例如“预测品牌偏好”“预测品类偏好”“预测风格偏好”。行为习惯类标签中可单独使用“习惯”做动词,例如“习惯上网时间段”“习惯消费商场”。
- 标签的数据计算内容中不应该统计未成年人的相关数据
- 标签描述:对标签名用一两句话进行解释,避免标签名由于用词过于简短而存在歧义、模糊、多义等问题。一般在有标签逻辑信息的情况下,标签描述可以不写,但是考虑到数据安全,有时标签逻辑信息不能完全对外展示,标签描述就成为唯一的对外解释窗口,就有存在的必要。
- 统计类标签:【场景】+【时空修饰】+【计算方法】+【可选修饰】
- 标签安全级别实例
标签的运营
1. 标签设计
数据资产设计师根据业务调研、数据调研等前期工作开展标签设计工作,产出标签类目体系架构图和标签设计文档,包括标签对象、类目体系、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期等元标签信息。
2. 标签开发
标签设计完成后,按照加工类型对标签分类,然后提交给数据开发工程师和算法工程师,由他们进行各类标签的开发工作。原始类和统计类标签交由数据开发工程师完成,算法类标签交由算法工程师完成。在标签开发完成后,由数据开发工程师补录完整标签的物理存储信息,如表名、字段名、负责人、完成时间等,完成标签向数据层的映射。此外,在实际开发过程中,如果需要对标签的元标签信息进行更改,也可以在标签开发完成后统一修改或补充。
3. 标签上架
标签开发完成并补充完整元标签信息后,需要将标签在标签管理系统中上架。标签上架后,才能通过标签门户开放、展示给各端业务人员查看、咨询、使用。在此过程中,系统会根据标签的安全等级、部门角色等信息来确定不同账号的数据查看、申请使用权限。权限内容包括可见标签集范围、标签详情信息范围、可申请标签集范围等。
4. 标签使用
标签只有被业务使用才能发挥价值。标签的使用有数据同步、数据服务、数据应用等方式。数据同步是指将加工好的标签数据直接同步到业务系统的数据库中,简单粗暴,一般只有核心业务才会这样使用。在这种方式下,标签使用问题与效果难以跟踪,因此并不推荐。数据应用是指把标签功能封装成产品交互形态供外部使用,既能跟踪标签调用情况,又能评估标签使用效果。不过这种方式与业务方绑定较深,由于业务人员使用习惯各不相同,业务定制需求较多,通用产品难以满足众多业务前端的个性化需求,扩展性有限。数据服务是指将标签使用方式封装成API形式对接到业务系统,业务人员既可以灵活使用标签,又不需要直接复制标签数据,且调用情况容易跟踪和监控。综上,标签使用的理想方式是数据服务,它最能体现和发挥标签的广泛价值。在使用标签的过程中需要监控其调用情况,来审计其稳定性、安全性和规范性。
5. 标签治理
从治理层面来说,统一的标签治理主要包括以下内容。血缘信息:标签生产的路径即血缘,是根据历史事实记录每项标签的来源、处理过程、应用对接情况等。元标签规范:每个标签都需要登记有业务类和技术类元标签信息,元标签管理需要形成统一的规范体系,对标签进行统一的信息登记和检查。质量管理:标签质量管理要贯穿标签从设计、使用到归档等的全过程,其核心是制定一套标签质量管理规则,遵循标签质量标准,并配备可视化的标签质量监控平台、标签交叉验证工具等技术支撑。安全管理:“三横三纵”的标签安全保障体系。“三纵”指安全理念及整体策略:首先,标签的使用必须符合国家大数据相关政策法规;其次,必须保障所有客户所有数据资产安全;最后,在具体使用过程中,要评定标签敏感性等级,制定相应的安全管理策略和安全实现方案。“三横”指的是采取的核心方法:其一是三重加密机制,其二是可用不可见标签安全体系,其三是由所有ID生成的一个核心ID(已脱敏)。
6. 标签营销
标签开发完成后,对外需要将标签价值进行梳理、宣传和推广,让业务部门人员尽快了解到各类标签信息。营销人员对外需要组织各类曝光活动以推广热门、高价值标签,还可以按各类主题、场景、领域组织标签集合来向业务人员精准推送,并提供端到端解决方案;对内需要及时对错误标签信息进行更正、对低质量的标签进行持续不断的治理优化、对高热度、高质量的标签进行排序优化、对有需求、有潜力的标签进行需求升级和研发储备。
企业数据部门和各业务部门都可以设置自己所拥有标签的开放程度:
- O1级为公共开放且其他部门使用时不需要本部门审核;
- O2级为公共开放但其他部门使用时需要本部门审核;
- O3级为定向开放且定向部门使用时不需要本部门审核;
- O4级为定向开放但定向部门使用时需要本部门审核。
标签质量相关指标
- 标签使用准确率:标签在使用过程中,经过业务场景验证、反馈得出的标签准确率,是一种较为真实的准确率判断。
- 标签调用量:标签平均每日的调用量、今日当前累计调用量、历史累计调用量、历史调用量峰值都是可参考的调用量信息,反映该标签被业务真实调用的次数。
- 标签受众热度:标签被多少业务部门、业务场景、业务人员申请使用,可以反映标签的适用性、泛化能力。
- 标签调用成功率:某标签在真实使用场景中,调用成功次数(历史总调用次数-调用失败次数)占总调用次数的比例。
- 标签故障率:某标签在真实使用场景中,累计故障时长占总服务时长的比例。
- 标签关注热度:对标签在标签门户中被搜索、浏览、收藏、咨询、讨论等的热度进行综合计算得出的热度。
- 标签持续优化度:该标签是持续被开发人员迭代优化,还是尚处于一次开发阶段,反映了该标签被反复锤炼、持续优化的程度。
- 标签持续使用度:标签被业务申请使用后,平均被调用时长、频率及推广情况,反映了该标签是否真正为业务带来价值。
- 标签成本性价比:将标签加工过程中产生的数据源成本、计算成本、存储成本与其为业务带来的价值、调用量、应用重要程度等进行综合计算,得到的性价比指标,是一个纵观成本和价值的平衡参数