论文标题:Automating Developer Chat Mining
原文链接:Automating Developer Chat Mining | IEEE Conference Publication | IEEE Xplore
说明:在读研究生为方便记忆梳理学习,手敲论文笔记,概括论文的主要思想
背景
在开源软件 (OSS) 项目,聊天室中的大多数讨论线程都遵循问答格式,一些开发人员(提问者)提出最初的问题,而其他人(受访者)加入提供答案。这些讨论线程嵌入了丰富的信息,可以满足各种 OSS 利益相关者的多样化需求。
但是,从线程中检索信息具有挑战性,因为它需要线程级分析来理解上下文。此外,聊天数据是瞬态的、非结构化的,由纠缠不清的非正式对话组成。
在本文中,我们通过识别开发人员聊天中可用的信息类型并进一步引入自动挖掘技术来应对这一挑战。
- 通过手动检查来自 Gitter 上三个聊天室的聊天数据,使用卡片分类,
- 我们构建了一个包含九个信息类别的线程级分类,并创建了一个包含 2,959 个线程的标记数据集。我们提出了一种分类方法(名为 F2CHAT),根据信息类型自动构建大量线程,帮助利益相关者快速获取他们想要的信息。
- F2CHAT 有效地将手工制作的非文本特征与神经模型提取的深层文本特征相结合。具