AI模型评估产品评论中建议的有效性

模型评估产品评论中提供建议的有效性

产品评论是电子商务网站上一个受欢迎且重要的功能,许多客户在其购物旅程中依赖于此。评论通常包含个人经验和观点,可以帮助其他客户做出更明智的购买决策。此外,评论还包含实用且非显而易见的建议,以便更好、更轻松、更安全地使用产品。例如,“首次使用此相机前请充电8小时”。这类推荐被称为“产品建议”。

为了节省客户阅读数十甚至数百条评论以寻找有用建议的时间,研究人员引入了从评论中自动提取建议的方法。这些建议可以展示在网站的专用小部件中。然而,由于建议通常是非显而易见的推荐,客户可能会合理地质疑其有效性,并寻找来自其他客户的支持或反对证据。

在今年ACM信息检索特别兴趣小组会议上发表的一篇论文中,提出了一种方法,用于确定一个产品的所有评论在多大程度上支持或反对某条建议。

该方法的核心是一个模型,它能够确定一条建议与另一条评论中的句子之间的支持、反对或中立程度。这是一项具有挑战性的任务,因为两个自然语言句子之间的支持和反对有多种形式。例如,建议“首次使用此相机前请充电8小时”得到了句子“建议使用前充电”的支持,但被“电池已预充电”这一陈述所反对。

在一个使用多个产品类别的产品建议进行的实验中,为每条建议检索了最多五个被模型识别为支持该建议的评论句子,以及最多五个被识别为反对该建议的句子。在覆盖率为50%时——即当我们将自己限制在模型预测置信度最高的50%的建议-句子对上时——该方法在检测支持关系和反对关系上分别达到了72%和58%的精确度。

由于我们的任务是面向精确度的,我们还考虑了25%的覆盖率,发现检测支持和反对关系的精确度分别提高到79%和67%。这些结果反映了相对于现成的模型有8%和29%的相对改进,证明了这项任务的挑战性。我们进一步发现,至少有一半的提取建议有支持性评论,至少三分之一有反对性评论。

这种新方法有可能集成到提供建议的小部件中,同时提供其支持程度以及指向相关评论的链接,以便客户评估其有效性。

建议支持程度估计

该方法分三步进行,如下例所示:

第一步:给定从客户评论中提取的产品建议,我们的目标是衡量该建议从该产品的所有评论中获得的支持和反对程度。然而,有些产品有数千条评论,因此我们的算法会检索与建议最相似的几百个句子。我们使用基于句子嵌入的最近邻搜索来估计相似度。这样做是为了加快后续步骤,这些步骤依赖于计算密集度更高的模型。

第二步:使用一个句子到句子的支持程度分类器,我们计算建议与每个相关句子之间的支持分数和反对分数。支持程度分类器是一个神经模型,它基于手动标注为相互支持、反对或中立的句子对进行训练。分类器输出三个分数——支持、反对和中性——它们的总和为1。

第三步:最后,将所有相关句子的所有支持分数和反对分数进行聚合,提供一个全局支持分数和全局反对分数,这反映了所有评论相对于给定建议的支持程度。

有了估计建议支持和反对分数的能力,我们定义了以下分类法来描述建议:

  • 高度支持:有许多支持性句子且几乎没有反对性句子的建议。
  • 高度反对:有许多反对性句子且几乎没有支持性句子的建议。
  • 有争议:有许多支持性和许多反对性句子的建议。
  • 个例:几乎没有支持和反对句子的建议。

为了根据此分类法检查建议的分布,我们将支持和反对分数分为低、中、高三个范围。然后将建议分配到它们所属的单元格中,创建三乘三的热图。

作为示例,下图展示了 (a) 所有类别的热图和 (b) 服装类别的热图。我们发现,有争议的建议在服装类别中非常普遍(占建议的43%)。这些建议通常与尺码相关,例如,“订购比您平时穿的大一号的尺码”,而其他评论则建议,“这款尺码标准,非常合身”。

产品评论,尤其是产品建议,对客户来说既重要又有帮助。我们相信,通过展示每条建议的支持程度,并提供指向支持或反对评论的链接,可以帮助客户评估建议的有效性,并决定给予每条建议多大的信任。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值