富含背景知识的主题模型与人的感知及预测质量的机器学习应用
在当今的数据分析和机器学习领域,主题模型和质量保证是两个重要的研究方向。富含背景知识的主题模型旨在提升模型的可理解性,而基于机器学习的质量保证系统则致力于预防产品缺陷。下面将详细介绍这两方面的研究内容。
富含背景知识的主题模型研究
在主题模型的研究中,研究人员针对不同的数据集确定了不同数量的主题:
- 纽约时报注释语料库:125 个主题
- BBC 数据集:30 个主题
- DBpedia 摘要数据集:1000 个主题
为了进行调查和管理结果,最初准备了包含 60 个实体和 60 个主题入侵任务的 Google Doc,但发现完成该问卷过于繁琐和耗时,于是实施了一个网络服务,每次随机展示一个实体和一个主题入侵任务,以保持答案分布的平衡。
研究人员向计算机科学/数学专业的学生发放了问卷链接,在收到 600 份答案后结束了调查,这对应每种任务类型 300 份答案,每个单一任务 5 份答案,共有 10 名参与者。
接下来,研究人员对模型精度和主题对数优势进行了评估:
- 整体评估 :在 300 个实体入侵答案中,260 个正确,模型精度为 0.87,整体主题对数优势为 -4.23,其中 BBC 数据集表现最佳。具体数据如下表所示:
| 数据集 | 模型精度 | 主题对数优势 |
| — | — | — |
| 总计 | 0.87 | -4.23 |
| BBC | 0.93 | -2.77 |
| 纽约时报 | 0.87 | -4.57 |
| 摘要 |
超级会员免费看
订阅专栏 解锁全文
1983

被折叠的 条评论
为什么被折叠?



