24、基于多智能体交互的多虚拟身份关联挖掘

基于多智能体交互的多虚拟身份关联挖掘

1. 引言

互联网的迅猛发展使论坛、博客和微博成为人们交流的主要平台。然而,网络匿名性的滥用导致人们常拥有多个虚拟身份。一些名人会用不同账号在多个网站发文以扩大影响力;不法分子利用匿名性实施邮件诈骗、制造虚假销售提升声誉排名等违法活动;垃圾邮件发送者则使用多个虚拟身份发布大量文章,影响搜索引擎结果和公众舆论。因此,识别多个虚拟身份之间的关联具有重要价值。

以往研究多通过文本痕迹,利用作者写作风格这一稳定特征来寻找虚拟身份的关联,但未关注用户的行为特征。实际上,这类作者在时间切片上有明显的行为特征,倾向于在多个时间切片中使用多个虚拟身份发布相似文章。时间切片在识别虚拟身份关联中起着重要作用:
- 通过时间切片分析,能发现虚拟身份间的潜在关联。为躲避检查,拥有多个虚拟身份的垃圾邮件发送者会用不同身份完成不同任务,整体上这些身份无明显关联,但从作者行为特征看,它们在同一时间切片内倾向于发布相似文章,只有进行时间切片分析才能识别其关联。
- 引入时间切片可有效过滤噪声数据。热门话题会吸引众多作者参与讨论,尽管一些虚拟身份发布的文章主题相似,但并非同一作者。引入时间切片后会发现,噪声数据(无关ID)仅在一个切片内与目标身份相关联,而属于同一作者的目标身份在多个时间切片内有强关联。

本文尝试基于多智能体交互挖掘多个虚拟身份的关联,设计了基于知识管理的识别模型MVIA - K。智能体在每个时间切片中进行分布式挖掘,找到候选作者组,提取高质量知识并传递给其他智能体,智能体将其作为先验知识指导后续挖掘过程,有效消除噪声数据的影响,最后基于知识规模整合分布式挖掘结果。

2. 相关工作

本文采用主题分析方法比较虚拟身份的相似性。LDA是广泛使用的主题模型,可将文档建模为词 - 主题分布和主题 - 文档分布。Author Topic模型是研究作者与文本关系的概率主题模型,但未考虑作者的时间信息。Temporal - Author - Topic(TAT)方法对作者兴趣和文档时间进行建模,但无法捕捉用户在时间切片上的行为特征。因此,本文未创建概率模型,而是将智能体和数据挖掘技术相结合,构建基于多智能体交互的识别模型。

作者身份归属研究试图将未知作者的文本分配给候选作者,一些研究利用写作风格识别作者。但在垃圾邮件发送者检测中,组织者会为其准备特定的帖子模板,发送者只需适当修改,削弱了写作风格的差异,这些方法不适用于识别此类虚拟身份的关联。还有研究尝试利用时间切片识别虚拟身份关联,但只报告和整合部分局部结果,可能遗漏有价值的局部知识,且在整合局部结果时采用投票方式,未考虑不同结果的置信度。

3. 多虚拟身份关联识别
3.1 问题描述

网络空间中的这类用户通常拥有多个虚拟身份,会在不同时间段选择不同身份发文。假设用户的虚拟身份集合为$U_{all}={ID_1, ID_2, \cdots, ID_n}$,在时间$T_i$发文时,会随机选择子集$U_i = {ID_k, ID_l, \cdots, ID_o} \subseteq U_{all}$。$U_{all}$中的每个ID发布的文章主题随机,无明显关联,但在时间切片$T_i$内,$U_i$中的ID有强关联,便于识别。目标是在时间切片$T_i$中找到子集$U_i$,并整合得到$U_{all}$。

然而,热门话题会吸引很多人参与讨论,导致这些ID在一段时间内发布相似内容,带来更多噪声数据(无关ID),增加了识别难度。有时在$T_i$中得到的是包含噪声数据的$U_i’$而非目标$U_i$,如何利用$U_i’$得到$U_{all}$是本文的关键。

3.2 Choo Sense - Making KM模型

本文借鉴Choo Sense - Making KM模型的思想,从知识管理的角度设计MVIA - K模型。Choo描述的知识管理模型强调意义构建、知识创造和决策制定。在意义构建阶段,尝试理解从外部环境流入的信息;知识创造可视为个人知识通过对话、交流、分享和讲故事在个体间的转化;决策制定基于理性决策模型,通过处理收集到的信息和知识来识别和评估替代方案。

3.3 识别模型:MVIA - K

MVIA - K是基于多智能体交互的识别模型,在知识管理理论的指导下,通过知识提取、流动和整合过程实现有效识别。其流程如下:
1. 意义构建智能体主动感知用户的动态需求,接收用户指定的任务,捕获相关数据并进行预处理,然后根据特定的时间切片大小分解任务,通知其他智能体开始后续知识挖掘。
2. 知识创造智能体在各自的数据集$D_i$中进行分布式数据挖掘,获取局部知识$K_i$,从$K_i$中提取高质量知识$HK_i$并传递给其他智能体,接收$HK_i$的智能体将其作为先验知识指导后续挖掘过程,减少噪声数据的影响。
3. 主智能体基于知识规模$d_i$整合分布式挖掘结果,得到目标组。
4. 决策制定智能体接收挖掘结果,形成组知识,通过人机交互或用户定义的阈值提取目标作者组。

以下是MVIA - K模型的mermaid流程图:

graph LR
    A[意义构建智能体] --> B[捕获数据并预处理]
    B --> C[分解任务]
    C --> D[知识创造智能体]
    D --> E[分布式挖掘获取局部知识Ki]
    E --> F[提取高质量知识HKi]
    F --> G[传递HKi给其他智能体]
    D --> H[使用HKi指导后续挖掘]
    H --> I[主智能体]
    I --> J[基于知识规模整合结果]
    J --> K[决策制定智能体]
    K --> L[形成组知识]
    L --> M[提取目标作者组]
4. 基于知识的多智能体挖掘与交互
4.1 局部知识提取

首先,需找到作者与其文章主题的关联。AT模型(Author Topic模型)是作者 - 主题的概率模型,通过分析内容,将作者映射到主题的概率分布,不同的主题分布代表作者的知识结构和写作倾向。

使用Gibbs采样(一种马尔可夫链蒙特卡罗算法)计算分布,可通过以下方程估计主题 - 词分布和作者 - 主题分布:
$\varphi_{mj} = \frac{CWT_{mj} + \beta}{\Sigma_{m’} CWT_{m’j} + V\beta}$ (1)
$\theta_{kj} = \frac{CAT_{kj} + \alpha}{\Sigma_{j’} CAT_{kj’} + T\alpha}$ (2)
其中,$CWT_{mj}$是在主题$j$中使用词$m$的概率,$CAT_{kj}$是作者$k$使用主题$j$的概率,$V$是词的数量,$T$是数据集中的主题数量,$A$是作者数量,$\alpha$和$\beta$是模型的超参数。

之后,通过主题分布之间的对称Kullback Liebler(KL)距离测量作者$p$和$q$之间的距离:
$dis(p, q) = \frac{1}{2}[\sum_{j = 1}^{T} p_j \log_2 \frac{p_j}{q_j} + \sum_{j = 1}^{T} q_j \log_2 \frac{q_j}{p_j}]$ (3)
通过计算作者的KL距离得到局部知识$K = {A_1, A_2, \cdots, A_n}$,设置阈值$d$提取高质量知识$HK \subseteq K$,其中$\forall A \in HK \to dis(k, l) < d$。为提高高质量知识的影响力,对不在$HK$中的虚拟身份进行惩罚(在其KL距离上加惩罚值)。然后,智能体将$K$报告给主智能体,并将$HK$传递给其他智能体。

4.2 知识流动

为简化,在转移阶段采用单向转换,每个智能体仅将知识传递给一个智能体,且每个智能体仅接收一次先验知识。由于每个智能体的个体知识不同,在学习过程中,智能体需检查先验知识$priori - K$,找到有价值的知识$priori - K’$,然后用其修正初步挖掘结果(取两者距离的平均值)。模型中的知识流动可扩大高质量知识的影响,有助于减少局部噪声数据的影响。

4.3 知识整合

局部挖掘完成后,智能体主动与主智能体协商并投票,标记其局部知识。尽管每个智能体仅投票一次,但对最终结果的权重不同。显然,从大数据集挖掘的知识比小数据集的更可信。本文将每个时间切片内的文档数量视为知识规模,主智能体使用以下方程计算虚拟身份$k$和$l$之间的距离:
$dis(k, l) = \sum_{i = 1}^{n} \frac{D_i}{\sum_{i = 1}^{n} D_i} dis_i(k, l)$ (4)
其中,$D_i$是时间切片$T_i$内的文档数量,$dis_i(k, l)$是时间切片$T_i$内虚拟身份$k$和$l$之间的距离。

以下是知识提取、流动和整合的步骤列表:
1. 局部知识提取:
- 使用AT模型分析作者与主题的关联。
- 用Gibbs采样计算分布。
- 计算作者间的KL距离得到局部知识。
- 设置阈值提取高质量知识。
- 惩罚不在高质量知识中的虚拟身份。
- 报告局部知识并传递高质量知识。
2. 知识流动:
- 单向传递知识。
- 检查先验知识,修正初步挖掘结果。
3. 知识整合:
- 智能体投票标记局部知识。
- 主智能体基于知识规模计算距离。

5. 实验

选取了来自三个中文博客网站(新浪、搜狐、163)的33位知名作者,收集了2009年至2010年的12,865篇文章。其中12位目标作者在不同网站拥有多个账号,并在时间切片内发布相似文章,符合本文问题的定义。由于这些知名人士在网站上进行了实名认证,便于验证实验结果。

选择Author Topic(AT)模型作为基准技术,并使用与相关研究相同的超参数,其中超参数$\alpha$和$\beta$分别设置为$50/T$和$0.01$,主题数量$T = 20$,迭代次数为500。

在MVIA - K模型中,使用KL阈值提取高质量知识并选择最终目标组,因此在实验中选择了不同的KL阈值(从0.3到0.7)。同时,时间切片大小也会影响实验结果。如果时间切片太小,同一时间切片内的文章数量过少,无法发现虚拟身份之间的关联;如果时间切片太大,则可能会丢失用户在时间切片上的行为特征。本文将数据集分别划分为5个和10个时间切片,分别命名为MVIA - K5和MVIA - K10。

实验使用精度和F1值作为评估标准,结果如下表所示:
| 模型 | KL阈值 | 精度 | F1值 |
| ---- | ---- | ---- | ---- |
| AT模型 | 不同值 | - | - |
| MVIA - K5 | 0.3 - 0.7 | - | - |
| MVIA - K10 | 0.3 - 0.7 | - | - |

从实验结果图中可以看出,在多个KL阈值下,MVIA - K模型明显优于AT模型。这是因为网络空间中的热门话题带来了大量噪声数据,使得许多作者在主题分布上相似,AT模型仅依靠KL阈值只能粗略过滤噪声数据(这也是其召回率较高的原因)。KL阈值在识别能力中起着重要作用,与AT模型相比,MVIA - K模型能够更有效地过滤噪声数据。但如果KL阈值过大,局部结果的相关性会降低,导致精度和F1值下降。

不同大小的时间切片对结果也有一定影响。在该数据集中,MVIA - K10的表现优于MVIA - K5。这是因为在MVIA - K10中,高质量知识的传递次数更多,确保了较差的局部结果影响较小;而在MVIA - K5中,较差的局部结果影响更大。因此,当KL阈值增加时,MVIA - K5的下降趋势更明显。但这并不意味着时间切片越大越好,当时间切片划分过细时,每个时间切片内的文章数量过少,难以提取高质量知识,导致难以获得有价值的结果。因此,在实际应用中,选择多个时间切片大小并取平均结果更为合适。

以下是实验结果的mermaid流程图,展示不同模型和参数设置下的性能对比:

graph LR
    A[实验设置] --> B[AT模型]
    A --> C[MVIA - K5]
    A --> D[MVIA - K10]
    B --> E[不同KL阈值测试]
    C --> F[不同KL阈值测试]
    D --> G[不同KL阈值测试]
    E --> H[记录精度和F1值]
    F --> H
    G --> H
    H --> I[对比结果分析]
6. 结论

本文聚焦于多虚拟身份关联的识别问题。通过引入时间切片分析用户行为,提出了基于知识管理理论的识别模型MVIA - K。该模型将智能体技术和数据挖掘相结合,使分布式知识能够有效流动。高质量知识可指导后续挖掘过程,获得更高质量的结果。同时,基于知识规模的整合方法能够有效克服噪声数据的影响,取得了较好的实验效果。

综上所述,MVIA - K模型在多虚拟身份关联识别方面具有显著优势,为解决网络空间中虚拟身份识别问题提供了一种有效的方法。在实际应用中,可以根据具体情况调整时间切片大小和KL阈值,以获得最佳的识别效果。

以下是MVIA - K模型的优势总结列表:
1. 考虑时间切片:能够捕捉用户在时间切片上的行为特征,发现虚拟身份间的潜在关联。
2. 知识管理:通过知识提取、流动和整合,有效过滤噪声数据。
3. 多智能体交互:分布式挖掘和知识共享,提高识别的准确性。
4. 实验验证:在实际数据集上表现优于AT模型。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值