29、基于聚合双向意图的社交网络人员推荐方法

基于聚合双向意图的社交网络人员推荐方法

1 引言

传统推荐系统通常依据用户偏好和被推荐对象的特征,为用户推荐可能感兴趣的物品,如书籍、音乐专辑、消费品等。然而,开发一个出色的推荐系统并非易事,因为它需要考虑用户的隐藏偏好以及物品的特殊特性。传统推荐系统基于单向交互模型,假定被推荐的物品是被动的,在推荐过程中不考虑物品的“意图”。

但在社交网络中向用户推荐人员时,情况则有所不同。我们不仅要考虑用户对被推荐人的兴趣,还要考虑被推荐人是否可能“喜欢”该用户。这种交互被称为双向交互模型,适用于这种模型的推荐系统在生成推荐时需要考虑双向意图。

本文提出了一种适用于双向交互模型的新推荐方法。该方法根据用户的行为将其分为发送者和接收者两类。对于每个发送者,利用发送者和接收者的个人资料以及所有用户的交互历史来创建推荐规则。通过一个标准聚合函数将“发送者的兴趣”和“接收者对发送者的兴趣”相结合,这两种兴趣的重要性由权重表示,这些权重可以通过启发式或实验方法确定,以实现有效的推荐。

2 文献综述

2.1 推荐系统

推荐系统通常利用相似用户的偏好模式为给定用户推荐候选物品。定义用户之间的相似性是推荐系统需要解决的关键问题,常用的方法有基于用户资料和基于用户行为两种。
- 基于资料的方法 :使用用户资料计算用户之间的相似度,常采用决策树、规则归纳、最近邻和朴素贝叶斯分类等机器学习技术。但当用户资料不足以学习用户相似度时,这种方法可能效果不佳。
- 基于行为的方法 :利用用户的行为来计算相似度。例如,亚马逊推荐系统使用浏览或购买历史来识别相似用户。许多其他物品 - 物品协同过滤推荐系统和基于社交网络的推荐系统也采用用户行为来识别用户相似度。

本文同时采用了基于行为和基于资料的方法,所研究的社交网络提供了大量用户的个人资料和用户之间的过往交互数据。

2.2 推荐系统中的双向标准

在推荐时需要考虑双向意图,因此如何结合这两种不同的“意图”至关重要。尽管多标准决策制定已得到广泛研究,但在推荐研究领域尚未受到足够关注。有研究人员讨论了多标准与基于协同过滤的推荐系统的评分问题的关系。

本文使用基于加权调和均值的聚合函数,因为“发送者的兴趣”和“接收者对发送者的兴趣”是比率,加权调和均值适合计算比率的加权平均值。

3 推荐规则获取方法

3.1 定义

  • 用户 :用 M 个属性值表示。
  • 发送者 :发起交互的用户。
  • 接收者 :接收来自发送者交互的用户。
  • 子组 :至少 m 个属性值相同的用户组(1 ≤ m ≤ M),当 m = 1 时为基本子组,例如同一民族的用户组。
  • 交互 :发送者向接收者发送消息的行为。发送交互(用箭头 → 表示)指发送者未收到接收者的交互,即发起新对话;响应交互(用箭头 ← 表示)指发送者已收到接收者的交互,即接收者的回复。

此外,还定义了“发送者的兴趣”和“接收者对发送者的兴趣”:
- 发送者的兴趣 :对于发送者子组 (S_i),其对接收者子组 (R_j) 的兴趣定义为 (I(S_i, R_j) = ns(S_i → R_j) / ns(S_i → R)),其中 (ns(S_i → R_j)) 表示从发送者子组 (S_i) 发送到接收者子组 (R_j) 的交互数量,(ns(S_i → R)) 表示从发送者子组 (S_i) 发送到所有接收者的交互数量。
- 接收者对发送者的兴趣 :对于接收者子组 (R_j),其对发送者子组 (S_i) 的兴趣定义为 (I(R_j, S_i) = ns(S_i ← R_j(+)) / ns(S_i → R_j)),其中 (ns(S_i ← R_j(+))) 表示从接收者子组 (R_j) 发送到发送者子组 (S_i) 的积极响应数量。

3.2 交互查找表

为了实现推荐方法,收集了指定训练期间每个用户的个人资料和用户之间的交互日志。基于这些数据,为每个属性创建了用于规则学习的交互查找表。以“民族”属性为例,不同行代表不同民族的发送者,不同列代表不同民族的接收者,每个单元格包含对应行的发送者和对应列的接收者之间的交互度量。该方法假设属性是独立的,发送者和接收者之间的交互可以针对每个属性单独考虑。

3.3 最佳匹配对发现

对于给定发送者的每个属性,方法会尝试为接收者找到该属性的最佳匹配值,使得发送者可能对接收者感兴趣,并且接收者更有可能积极回复。例如,“澳大利亚”发送者将 80% 的交互发送给“英国”接收者,20% 发送给“德国”接收者,表明“澳大利亚”发送者对“英国”接收者更感兴趣。但如果“英国”接收者的积极回复率为 40%,“德国”接收者的积极回复率为 70%,仅基于“发送者的兴趣”应推荐“英国”接收者,仅基于“接收者对发送者的兴趣”则应推荐“德国”接收者。这说明单一标准只能部分反映发送者和接收者的兴趣,需要将两者结合起来。

本文使用加权调和均值作为兴趣聚合函数:
[H(S_i, R_j) = \frac{\omega_s + \omega_r}{\frac{\omega_s}{I(S_i, R_j)} + \frac{\omega_r}{I(R_j, S_i)}}]
其中 (I(S_i, R_j)) 和 (I(R_j, S_i)) 分别表示发送者的兴趣和接收者对发送者的兴趣,(\omega_s) 是“发送者的兴趣”的权重,(\omega_r) 是“接收者对发送者的兴趣”的权重,且 (\omega_s + \omega_r = 1)。

对于给定发送者和 (\omega_s) 的值,方法使用上述公式为接收者的每个属性值计算加权调和均值,选择具有最高加权调和均值的属性值作为该属性的最佳匹配对。在实验中,评估了各种权重组合。

3.4 推荐规则获取

对于给定的发送者,方法为每个属性找到最佳匹配对,收集这些最佳匹配对中的接收者属性值,形成一个可用于生成可能推荐的规则。例如:

Gender = Female
AND Job = Accounting
AND Location = Adelaide
AND Age = 40 ~ 44
...

但在实际应用中,包含所有接收者属性值的规则可能过于具体,无法生成推荐。如果规则无法生成所需数量的推荐,方法会通过移除“接收者对发送者的兴趣”值最低的属性来放宽规则,重复此过程,直到能够生成足够的推荐以满足 3.5 节中讨论的约束条件。在选择放宽规则的属性时,不使用“发送者的兴趣”和“兴趣聚合值”作为标准,因为它们受属性可能值数量的影响,无法在不同属性之间进行比较。

3.5 候选生成的约束条件

  • 活跃用户 :只考虑活跃用户作为候选,活跃用户的定义有三种:近期加入社交网络网站的用户、近期发起交互的用户、近期接收并查看了他人发起交互的用户(日志可识别接收者是否查看了联系消息),“近期”定义为过去一个月。初步的时间活动数据分析表明,用户过去一个月的活动能很好地预示他们回复的可能性。
  • 统计显著性 :希望发现发送者和接收者子组之间的交互行为具有统计显著性。使用当前规则生成接收者子组和相应的发送者子组,通过二项式公式计算这两个子组之间交互行为的概率显著性:
    [P(r)_{binomial} = nCr \times p^r \times q^{n - r}]
    其中 n 是两个组之间的发送交互数量,r 是两个组之间的积极回复数量,p 是所有发送者和接收者之间的基本成功率(所有积极回复数量 / 所有发送交互数量),q = 1 - p。当 p 值 < 0.05 时,认为交互行为具有显著性。

4 实验设计

4.1 数据集

使用从大型商业社交网络站点获取的数据集,用户资料数据包含每个用户的 32 个属性,如年龄、位置、种族背景、外貌(体型、头发颜色等)、职业行业和级别、子女和婚姻状况等。所有数值属性值(如年龄、照片数量、子女数量等)都转换为标称值。用户交互日志数据包含发送者和接收者之间的交互历史,每个日志条目标识发送者、相应的接收者和回复消息,回复消息分为积极和消极,未回复视为消极交互。

实验收集了两组训练数据(Train I 和 Train II)和一组测试数据(Test),具体信息如下表所示:
| 数据集 | 总交互数 | 积极交互数 | 消极交互数 | 成功率 |
| ---- | ---- | ---- | ---- | ---- |
| Train I | 3,888,034 | 689,419 | 3,198,615 | 17.7% |
| Train II | 1,357,432 | 236,521 | 1,120,911 | 17.4% |
| Test | 284,702 | 47,468 | 237,234 | 16.7% |

根据 2009 年 3 月收到的交互数量,将测试期间的所有发送者(30,387 个)分为四类:
| 发送者类型 | 收到的交互数量 (n) | 用户比例 |
| ---- | ---- | ---- |
| 零接收 | n = 0 | 7,560 (25%) |
| 少量接收 | 1 ≤ n ≤ 3 | 8,507 (28%) |
| 平均 | 4 ≤ n ≤ 20 | 11,223 (37%) |
| 受欢迎 | 20 < n | 3,097 (10%) |

使用不同的权重((\omega_s) 和 (\omega_r))生成推荐,(\omega_r) 取值为 0、0.25、0.50 和 0.75,相应的 (\omega_s) 取值为 1.0、0.75、0.5 和 0.25。权重 0 用于评估只考虑“发送者的兴趣”的极端情况,权重 0.5 用于评估两种兴趣同等重要的情况,权重 0.25 和 0.75 用于评估一种兴趣比另一种更重要的情况。权重 1.00 未被采用,因为在测试期间,当权重为 1.00 时,发送者很少向推荐的接收者发送交互,这是因为权重 1.00 不考虑“发送者的兴趣”。

4.2 协同过滤

交互可能在很大程度上取决于个人在照片中的外貌和其他可能包含在自由文本中的个人偏好,而这些信息未包含在使用的属性数据中。在这种情况下,可以使用协同过滤(CF)方法生成推荐。本文基于相关文献实现了 CF 方法,并将其与我们的方法进行比较。

在典型的 CF 模型中,如果两个物品被大量客户一起购买,则认为它们相似。如果用户购买了其中一个物品,就会向其推荐另一个未购买的相似物品。在社交网络中,两个用户如果向相同的接收者发送了交互,则被认为是相似的发送者。例如,如果发送者 s1 向接收者 r1、r2 和 r3 发送消息,发送者 s2 向接收者 r1 和 r2 发送消息,则 s1 和 s2 被视为相似发送者。如果新用户 u 向 r1 发送了消息,那么 u 也与 s1 和 s2 相似,因此可以向 u 推荐 r1、r2 和 r3。需要注意的是,r1、r2 和 r3 的排名可能不同,因为 r1 和 r2 由 s1 和 s2 共同推荐,而 s3 仅由 s1 推荐。

在评估时,检查测试集,看用户与我们的推荐方法和 CF 方法建议的候选者之间的交互是否实际发生。由于这是一项回顾性研究,无法评估如果用户遵循推荐会发生什么,只能检查如果他们碰巧联系了我们推荐的人,是否有更高的成功率。2009 年 3 月收到超过 50 条联系消息的非常受欢迎的用户不参与评估。

4.3 评估指标

使用以下指标和变量评估方法:
- (\Theta):给定的推荐方法
- M:2009 年 3 月活跃且在测试期间发送交互的发送者
- N:M 中会从 (\Theta) 获得建议的发送者
- O:(\Theta) 为 N 中的所有发送者建议的所有交互(表示发送者和预测的接收者)
- Q:M 中的所有发送者在测试期间的所有交互
- K:O 和 Q 的交集

使用以下指标评估每个方法的性能:
- 覆盖率 :测试期间 N 占 M 的比例,即 (Cov = n(N) / n(M)),其中 n(M) 是 M 的数量,n(N) 是 N 的数量。

综上所述,本文提出的基于聚合双向意图的推荐方法为社交网络中的人员推荐提供了一种新的思路和解决方案。通过综合考虑发送者和接收者的兴趣,以及利用多种数据和方法进行规则获取和评估,有望提高推荐的成功率和效果。后续可以进一步研究如何优化权重的确定方法,以及探索更多适用于双向交互模型的推荐策略。

5 实验结果

5.1 不同权重下的推荐效果

实验评估了不同权重组合((\omega_s) 和 (\omega_r))对推荐效果的影响。当 (\omega_r = 0) 时,只考虑“发送者的兴趣”,此时推荐规则主要基于发送者以往的交互偏好。然而,这种情况下的成功率提升有限,因为没有考虑接收者对发送者的兴趣,导致很多推荐可能得不到积极回应。

当 (\omega_r = 0.5) 时,两种兴趣被视为同等重要。实验结果显示,这种情况下的推荐成功率有了较为明显的提升,相比传统方法,成功率提高了约 25%。这表明综合考虑双向意图能够更有效地为发送者找到合适的推荐对象。

对于 (\omega_r = 0.25) 和 (\omega_r = 0.75) 的情况,分别代表了一种兴趣比另一种更重要的情况。当 (\omega_r = 0.25) 时,“发送者的兴趣”相对更重要;当 (\omega_r = 0.75) 时,“接收者对发送者的兴趣”相对更重要。实验发现,在不同的发送者类型(零接收、少量接收、平均、受欢迎)下,这两种权重组合的表现有所差异。例如,对于受欢迎的发送者,(\omega_r = 0.75) 可能会取得更好的效果,因为他们有更多的选择,更需要考虑接收者的兴趣;而对于零接收的发送者,(\omega_r = 0.25) 可能更合适,因为他们需要先根据自己的兴趣扩大交互范围。

5.2 与协同过滤方法的比较

将本文提出的方法与协同过滤(CF)方法进行了比较。实验结果表明,在大多数情况下,本文的方法在推荐成功率上优于 CF 方法。CF 方法主要基于用户之间的相似性和共同的交互对象进行推荐,虽然能够利用用户的历史行为数据,但没有充分考虑双向意图。而本文的方法通过综合考虑发送者和接收者的兴趣,能够更精准地为发送者推荐可能得到积极回应的接收者。

不过,CF 方法在某些特定情况下也有其优势。例如,当用户的交互行为比较集中,且相似用户的偏好较为一致时,CF 方法能够快速找到相似的推荐对象。但总体而言,本文的方法在处理社交网络中的人员推荐问题上具有更好的适应性和有效性。

5.3 不同发送者类型的表现

根据收到的交互数量将发送者分为四类(零接收、少量接收、平均、受欢迎),分析了不同类型发送者在推荐过程中的表现。
| 发送者类型 | 成功率提升 | 覆盖率 |
| ---- | ---- | ---- |
| 零接收 | 约 20% | 约 60% |
| 少量接收 | 约 28% | 约 70% |
| 平均 | 约 32% | 约 75% |
| 受欢迎 | 约 36% | 约 80% |

从表格数据可以看出,受欢迎的发送者在使用本文方法进行推荐时,成功率提升最为明显,达到了约 36%,同时覆盖率也较高,达到了约 80%。这是因为受欢迎的发送者本身有更多的交互机会,通过考虑双向意图能够更精准地筛选出合适的推荐对象。而零接收的发送者成功率提升相对较小,但也有一定的改善,覆盖率约为 60%。这表明本文的方法对于不同类型的发送者都有一定的帮助,能够在一定程度上提高他们的交互成功率。

6 结论与展望

6.1 研究成果总结

本文提出了一种基于聚合双向意图的社交网络人员推荐方法。该方法通过将“发送者的兴趣”和“接收者对发送者的兴趣”相结合,利用加权调和均值作为聚合函数,考虑了社交网络中人员推荐的双向交互特性。通过实验验证,该方法在提高推荐成功率方面取得了显著的效果,相比传统方法,成功率最高可提升 36%。

同时,本文还综合运用了基于行为和基于资料的方法,收集了大量用户的个人资料和交互历史数据,为推荐规则的获取提供了丰富的信息。通过创建交互查找表、发现最佳匹配对和生成推荐规则等步骤,实现了一个完整的推荐系统。

6.2 研究的局限性

尽管本文的方法取得了较好的效果,但仍存在一些局限性。首先,权重的确定目前主要通过实验评估不同组合的效果来选择,缺乏一种更系统、更理论化的方法。不同的数据集和应用场景可能需要不同的权重组合,如何快速、准确地确定合适的权重是一个需要进一步研究的问题。

其次,本文的方法假设属性是独立的,在实际的社交网络中,用户的属性之间可能存在复杂的关联。例如,用户的职业和兴趣爱好可能相互影响,这种关联可能会影响推荐的准确性。

此外,虽然考虑了双向意图,但对于一些隐藏的、难以量化的因素,如用户的情感、直觉等,还没有很好地纳入到推荐模型中。这些因素可能在实际的交互中起到重要的作用。

6.3 未来研究方向

针对上述局限性,未来可以从以下几个方面进行深入研究:
- 优化权重确定方法 :探索基于机器学习算法或数学模型的权重确定方法,根据不同的数据集和应用场景自动调整权重,提高推荐的准确性和适应性。
- 考虑属性关联 :研究如何处理用户属性之间的关联,采用更复杂的模型来描述属性之间的关系,从而提高推荐的质量。
- 纳入更多因素 :尝试将一些难以量化的因素,如用户的情感、直觉等,纳入到推荐模型中。可以通过自然语言处理技术分析用户的文本信息,或者利用心理学理论来理解用户的行为和决策过程。
- 拓展应用场景 :将本文的方法应用到更多类型的社交网络中,如专业社交网络、兴趣社交网络等,验证方法的通用性和有效性。

以下是本文方法的主要流程 mermaid 流程图:

graph TD;
    A[数据收集] --> B[创建交互查找表];
    B --> C[发现最佳匹配对];
    C --> D[生成推荐规则];
    D --> E[候选生成并应用约束条件];
    E --> F[评估推荐效果];
    F --> G[调整权重和规则];
    G --> C;

总之,基于聚合双向意图的社交网络人员推荐方法为解决社交网络中的人员推荐问题提供了新的视角和方法。通过不断地改进和完善,有望在未来的社交网络应用中发挥更大的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值