兴趣标签体系解决方案
上图是兴趣标签体系的整体解决方案。主流程是基于平台内商品/内容的文本信息进行文本分词清洗,与运营同学提供的关键词进行文本匹配,召回兴趣领域对应的商品/内容等行为标的。
再通过计算用户对商品/内容的行为,汇总得到用户-兴趣领域的得分,汇总生成兴趣人群。在用关键词召回时,对于一些无法枚举或者行业经验不足的情况,我们通过关键词关联进行了补充。
得益于圈子文化喜欢标榜个性的特点,95后的大部分兴趣领域都可以用具有唯一意义的关键词来描述。因此,理解用户兴趣的问题就转化成了以下两个问题:
-
如何通过关键词召回兴趣人群
-
如何筛选合适的关键词
▐ 如何通过关键词召回兴趣人群
选型初期,我们与闲鱼社区的工程团队一起,讨论了两套方案:
**【方案1】**直接计算用户-关键词之间的关联关系,并将这种关联关系导入到在线平台,实现在线或近线的检索召回。这种方式具备很好的灵活性和可扩展性,但可能会存在由于关键词分词而带来的歧义。
例如,当我想找到搜索了「复古 摄影」的用户时,「复古摄影」可能会被分词为「复古」和「摄影」分别进行召回,这就可能召回的是搜索了「复古 口红」和「日系 摄影」的用户,影响了人群打标的准确性。
此外,全量的用户-关键词关联数据量非常大,会在很大程度上影响检索效率。考虑到初期重点运营长尾兴趣领域,我们将实现方式调整为方案2。
**【方案2】**通过用户-商品-关键词的方式进行关联。经过多年沉淀,闲鱼平台集合了丰富的用户行为数据。
我们首先通过关键词匹配对应的商品,匹配内容包含商品的标题、描述等文本信息,商品的集合作为兴趣内容的表达。接着统计用户在召回商品上的行为(如浏览、收藏、互动、交易等),并在行为类型、行为频次和行为时间上进行加权,得到「用户-商品」的行为程度得分。
由于兴趣标签属于长周期标签,所有用户打标流程都可以放在离线计算完成,再将打标好的数据导入线上平台,依托闲鱼强大的人群运营平台和精准投放链路,实现最终的人群精准运营。
理论上,用户在兴趣商品上的所有「用户-商品」行为得分加和即为用户-兴趣得分。但是在做兴趣粒度的汇总时,我们希望能够将用户在平台的其他行为偏好也纳入考虑——由于兴趣领域相对较为长尾,有些用户虽然对兴趣领域商品有过一些行为,但综合观察可以发现该用户在平台非常活跃,对其他领域的行为偏好可能还更加浓厚——这种用户如果在排序中非常靠前,会对那些在平台活跃度一般,但对兴趣领域十分关注的用户造成打击。
而我们构建兴趣标签的其中一个重要目标,就是为了能够拉动长尾的兴趣类用户在平台更多地发现适合自己的内容和相同喜好的用户,进而提升长尾流量的活跃度与粘性。为此,我们在计算用户-兴趣得分时,借鉴了文本挖掘中的TF-IDF算法,计算该兴趣领域对用户的重要程度。
通过关键词与用户行为计算用户-兴趣得分
TF-IDF是一种文本挖掘算法,用以计算某个单词对一篇文章的重要程度。其主要思想是:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此单词能够很好地标记文章的主题,具有良好的区分能力。TF-IDF其实是TF*IDF,其中:
体现了该单词在单文件中的出现频率;
体现了该单词在文件集合中的类别区分能力。
单词在同一份文件中出现的频率越高,且文件集合中包含该词的文件数越少,说明单词的文本分类能力越强,越能体现文件主题。
这里,我们将一个兴趣领域看做一个单词,一个用户看做一个文件,全量用户看做文件集合,则用户在不同兴趣领域的TF-IDF可表示为:
通过这种方式,我们可以真正对兴趣领域有偏好的用户,标记为兴趣人群。
▐ 如何筛选合适的关键词
兴趣领域关键词的筛选主要采用「典型关键词+热搜词」的方式。
典型关键词由业务同学基于运营经验给出,往往包含了如经典产品系列,入门级汉服品牌等最能体现圈子文化的词汇。
通过这些关键词,我们可以召回基础行为人群。但95后们追新求变的性格使得兴趣圈子里的生命周期短,更新换代非常快。
针对这个问题,我们以基础人群为标准,计算了人群近期热搜词,同样作为关键词进行人群召回,在保证人群规模的同时保证了人群的时效性。
「典型关键词+热搜词」找到领域关键词
下图是一个JK人群的关键词召回示意,图中由内而外分别是「标签-核心词-热搜词」。
JK标签关键词云
对于一些较为宽泛的兴趣领域,如植物,宠物等,我们希望能够深入到更加细分的领域进行运营。
但由于领域本身范围很大,业务同学也无法枚举所有细分领域。这种情况下,我们充分利用了集团内成熟的类目体系,以最细叶子类目名称(如宠物类目下还可以细分为猫,狗,鱼,仓鼠等叶子类目,植物下还有多肉,盆景等叶子类目)作为初始关键词,通过关联关系找到更多同一细分领域下的衍生关键词,从而形成细分领域的关键词集合,召回对应人群,形成标签。
下图为宠物类目的细分示意图,图中由内而外分别是「细分领域叶子类目–衍生关键词–兴趣领域词」
宠物标签关键词云
还有一些兴趣领域,很难通过单一关键词进行准确的描述。以复古怀旧类兴趣为例,拥有这种兴趣偏好的用户,其本质上是对“复古”这一抽象的风格概念有兴趣,它涵盖的商品或内容往往横跨美妆、服饰、绘画、摄影甚至收藏等多个领域。
这种情况下,我们同样基于关联关键词的思路,召回与复古相关的关键词组成词组,进行文本匹配和用户召回。
应用效果
========
目前标签体系已经完成了第一阶段的建设。第一阶段重点对95后最热衷的兴趣领域进行打标,成果如下:
-
标签数量20+,精准覆盖95后兴趣领域,如JK、lolita、汉服、二次元等
-
95后群体中已有超过50%的用户打上了兴趣标签,为业务精细化运营提供了充分的资源
除了覆盖量上的突破,标签体系同样在实际业务中拿到了投放效果,验证了人群的准确度。在一期建设完成后,我们将标签体系应用于闲鱼的直播业务,带来了实际的效果提升:
-
对比以往默认的内容展示,兴趣人群-兴趣领域主播的匹配方式点击转化成倍提升,显著提高推荐效率
-
由于兴趣类主播在首页曝光、点击量的提升,长尾的兴趣内容类主播获得了更多的流量,很大程度上提升了主播的积极性
===
===
未来规划
========
由于项目时间紧急,兴趣标签以快速实现业务目标为准则进行了初版建设,后续随着业务的发展,我们的标签体系也会逐渐完善
- 在现有关键词发现的基础上,完善关键词挖掘能力,能够自动化地嗅探到领域内关键词汇,提升人群召回效率
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Java工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注Java获取)

Ending
Tip:由于文章篇幅有限制,下面还有20个关于MySQL的问题,我都复盘整理成一份pdf文档了,后面的内容我就把剩下的问题的目录展示给大家看一下
如果觉得有帮助不妨【转发+点赞+关注】支持我,后续会为大家带来更多的技术类文章以及学习类文章!(阿里对MySQL底层实现以及索引实现问的很多)
吃透后这份pdf,你同样可以跟面试官侃侃而谈MySQL。其实像阿里p7岗位的需求也没那么难(但也不简单),扎实的Java基础+无短板知识面+对某几个开源技术有深度学习+阅读过源码+算法刷题,这一套下来p7岗差不多没什么问题,还是希望大家都能拿到高薪offer吧。
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
2)]
[外链图片转存中…(img-YfipsnNQ-1713518412903)]
吃透后这份pdf,你同样可以跟面试官侃侃而谈MySQL。其实像阿里p7岗位的需求也没那么难(但也不简单),扎实的Java基础+无短板知识面+对某几个开源技术有深度学习+阅读过源码+算法刷题,这一套下来p7岗差不多没什么问题,还是希望大家都能拿到高薪offer吧。
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!