2、主题建模搜索算法的系统比较——重复错误报告识别研究

元启发式算法比较研究

主题建模搜索算法的系统比较——重复错误报告识别研究

1. 引言

主题模型技术在软件工程领域被广泛用于从软件工件中提取文本信息,这些信息可辅助软件工程师半自动化完成各种任务,如追溯链接检索、识别重复错误报告、自动摘要生成、源代码标注和错误定位等。其中,潜在狄利克雷分配(LDA)是一种备受关注的主题模型技术,它能够从软件文档中提取主题(相关词的聚类)。

然而,LDA需要设置多个超参数,如使用吉布斯采样生成模型时,需要选择主题数量K、迭代次数N以及影响文档和术语主题分布的两个超参数α和β。但对于任何数据集,都不存在能产生“良好”LDA模型的最优超参数值。未调优的LDA可能导致性能欠佳,甚至比基于标识符分析的简单启发式方法的准确率更低。

为解决调优难题,多年来研究人员提出了不同策略。早期尝试主要聚焦于调整主题数量K,而Panichella等人提出了基于搜索的方法来调优LDA超参数,他们使用轮廓系数作为适应度函数,引导遗传算法自动寻找(接近)最优的LDA配置,实证研究表明,通过遗传算法找到的LDA设置能显著提升其性能。

基于此,Agrawal等人进一步研究了用于调优LDA的搜索算法,他们使用差分进化(DE)作为替代元启发式算法,研究表明DE通常能实现更稳定的LDA配置,从而产生比遗传算法更好的主题模型。不过,目前尚不清楚在软件工程任务中,元启发式算法的选择到底有多重要。

本文旨在进一步研究并比较多种元启发式算法的性能,以确定是否存在一种能始终优于其他算法的“主”算法。为此,我们以重复错误报告识别为例,选择了Bench4BL数据集中的七个Java项目,比较了五种不同的元启发式算法,即DE、GA、粒子群优化(PSO)、模拟退火(SA)和随机搜索(Ran)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值