干货 | 挖掘旅游热点吸引年轻人,携程自动热点投放系统的背后玩法

本文介绍了携程AI内容化团队如何利用自然语言处理技术进行旅游热点挖掘、文章检索、点击率预估和内容包装。通过资讯分析发现用户对长尾关键词的搜索增加,构建了一套包含热点探知、检索模型、点击率预估和标题生成的系统。系统在提高点击率和用户感知方面取得了显著效果,尤其在标题生成和图文匹配上,运用了Transformer和对比学习等技术,以适应年轻用户的需求。

作者简介

 

携程AI内容化团队,负责携程内容产品的NLP,NLG支持,产品包括热点自动投放平台,点评分析服务,产品特色标签和推荐理由抽取,命名实体识别与链接,机器翻译等。

前言

从2017年开始,携程用户搜索时使用的关键词发生了一些有趣的变化:虽然传统的热门目的地词如“上海、北京”依然占比很高,但是大量长尾词如冷门景点、新兴景点也开始在搜索热词榜上占据一席之地。

对此团队进行了相应的数据分析,发现这些长尾词的急剧上升与一些外部热点如微博热搜,抖音网红,小红书热门文章等呈现正相关关系。对这个问题深入研究后发现,随着互联网用户的年轻化,网民们探索问题的热情明显变高,认知闭合(cognitive closure)度高的用户数量开始快速上升,他们在外部媒体获取到了目的地的热点和信息后,有意愿来专业旅游网站获取更多的目的地资讯,减少不确定性。因此大量用户会搜索长尾词。

 

这种趋势的存在使得热点内容运营的重要性大大提升。为此,携程计划建立起一套能半自动地探知热点,检索相关站内内容产品并实时自动投放的系统。

整套系统分为四个部分:第一部分资讯分析,目标是挖掘时令的旅游热点;第二部分为检索模型,基于第一部分输入的变量(主题、poiid、关键词等)打捞相关度足够高的文章建立召回池;第三部分通过点击率预估,在召回池中选择最合适投放的产品;最后,利用NLG和图文匹配技术对文章的标题和展示图片进行优化,生成卡片,提高用户感知和点击率。之后的章节我们将逐一介绍各部分的具体架构和算法。

 

一、资讯分析,找到适合推荐的主题topic

当前各大门户、资讯平台、电商app、内容app都在显著位置或者板块展示热门内容或者商品,用以抓住眼球,吸引用户注意。快速获取大众在搜什么、在看什么,在关注什么话题是众多内容平台需要挖掘的点。信息流应用能否快速发现热点、引流用户阅读热点,是影响用户体验的重要因素。内容平台能否引导用户放大扩散优质热点、改写热点,是扩大内容营销、扩展内容生态的关键。本节简单介绍OTA平台旅游热点挖掘相关工作。

1.1 热点探知

a.OTA平台旅游热点资讯来源多样,数据时效性也不同步,使用数据适配层构建多源异步数据处理对象,解决不同时间段不同接入源的标准化输出问题。

b.构建主题知识库,使用特定的关键词作为触发词将每天的每个新闻来源分类到不同的主题下,得到每个主题下的主题簇,以主题簇大小衡量主题热度。统计近半月内主题热度的梯度变化用以衡量主题热度攀升指数。

c.利用语言检索模型提取新闻标题的语义特征,使用语义特征和莱文斯坦比结合评价标题与标题的语义相似度;以标题作为节点,标题与标题间的语义相似度为节点间的权重构建无向连接图;使用Infomap社区发现算法获取主题簇下的群组,达到话题聚类的效果。(Infomap 的双层编码方式把群组识别同信息编码联系到了一起。一个好的群组划分,可以带来更短的编码。所以,如果能量化编码长度,找到使得长度最短的群组划分,那就找到了一个好的群组划分。)

d.以话题簇大小衡量话题热度,结合主题热度,主题热度攀升,话题热度,新闻本身点击热度等综合因素,得到话题的综合热门排序,取话题中表述完整优美的标题作为话题标题展示。

 

图1 话题簇聚类分析:构建图节点权重

 

图2 最终效果:花博会主题下的两个话题及话题热度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值