软件仓库数据挖掘与Web 2.0资源利用
1. 软件仓库非结构化数据挖掘
在软件项目中,挖掘软件仓库数据能为软件进化任务带来诸多益处。然而,非结构化数据存在噪声和歧义等挑战,但其中蕴含的丰富信息可用于概念和特征定位、错误定位、可追溯性链接以及计算源代码指标等任务。
1.1 数据预处理
在将错误报告输入到lscp之前,需使用简单的XML解析器解析错误报告,提取 <short desc> 和 <long desc> 两个元素中的文本内容。
1.2 构建IR模型
以构建LDA模型为例,使用 lucene-lda 工具,在命令提示符下执行以下命令(假设位于 lucene-tool 的基础目录):
$ ./bin/indexDirectory --inDir src-pre --outIndexDir \
out-lucene --outLDADir out-lda --K 64
操作步骤说明:
1. 指定输入目录 src-pre 。
2. 指定两个输出目录 out-lucene 和 out-lda ,分别用于存储Lucene索引和LDA输出。
3. 指定LDA模型的主题数量为64(选择最优主题数量仍是研究热点)。
4. 使用工具默认的α和β平滑参数,工具会根
软件仓库与Web 2.0数据利用
超级会员免费看
订阅专栏 解锁全文
1592

被折叠的 条评论
为什么被折叠?



