【论文阅读笔记】自动化开发者聊天挖掘

本文介绍了一种名为F2CHAT的方法,用于自动挖掘开发人员聊天中的信息。针对开源软件项目中聊天数据的挑战,如线程级分析和噪声数据,F2CHAT结合非文本特征与深度文本特征,预训练BERT进行语义编码,并通过LSTM理解线程对话。实验证明,F2CHAT在Gitter聊天室中表现出色,优于现有方法,并已开源相关资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文标题:Automating Developer Chat Mining
原文链接:Automating Developer Chat Mining | IEEE Conference Publication | IEEE Xplore
说明:在读研究生为方便记忆梳理学习,手敲论文笔记,概括论文的主要思想

 背景

在开源软件 (OSS) 项目,聊天室中的大多数讨论线程都遵循问答格式,一些开发人员(提问者)提出最初的问题,而其他人(受访者)加入提供答案。这些讨论线程嵌入了丰富的信息,可以满足各种 OSS 利益相关者的多样化需求。

但是,从线程中检索信息具有挑战性,因为它需要线程级分析来理解上下文。此外,聊天数据是瞬态的、非结构化的,由纠缠不清的非正式对话组成。

在本文中,我们通过识别开发人员聊天中可用的信息类型并进一步引入自动挖掘技术来应对这一挑战。

  • 通过手动检查来自 Gitter 上三个聊天室的聊天数据,使用卡片分类,
  • 我们构建了一个包含九个信息类别的线程级分类,并创建了一个包含 2,959 个线程的标记数据集。我们提出了一种分类方法(名为 F2CHAT),根据信息类型自动构建大量线程,帮助利益相关者快速获取他们想要的信息。
  • F2CHAT 有效地将手工制作的非文本特征与神经模型提取的深层文本特征相结合。具
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值