本文是LLM系列的文章,针对《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》的翻译。
摘要
选择要包含在摘要中的“正确”信息量是一项艰巨的任务。一个好的总结应该是详细的、以实体为中心的,而不是过于密集和难以遵循。为了更好地理解这种权衡,我们寻求越来越密集的GPT-4摘要,我们称之为“密度链”(CoD)提示。具体来说,GPT-4在不增加长度的情况下迭代合并缺失的显著实体之前,生成初始实体解析摘要。与普通提示生成的GPT-4摘要相比,CoD生成的摘要更抽象,表现出更多的融合,并且具有更少的潜在偏差。我们对美国有线电视新闻网每日邮报的100篇文章进行了人类偏好研究,发现人类更喜欢GPT-4摘要,这些摘要比普通提示生成的摘要更密集,几乎和人类书面摘要一样密集。定性分析支持这样一种观点,即在信息性和可读性之间存在权衡。HuggingFace上免费提供500份注释CoD摘要,以及额外的5000份未注释摘要。
1 引言
2 密度提升链
3 统计数据
4 结果
5 相关工作
6 结论
我们研究了概括致密化对人类整体素质偏好的影响。我们发现,优选一定程度的致密化,然而,当摘要每个token包含太多实体时,很难保持可读性和一致性。我们开源了带注释的测试
本文探讨使用密度链(CoD)提示来改进GPT-4的摘要生成,使得摘要更加详细且实体丰富。通过迭代合并缺失实体,CoD摘要在不增加长度的情况下提高了信息密度。研究发现,人类更倾向于这种致密化的摘要,其在信息性和可读性之间取得平衡。论文开源了500个注释和5000个未注释的CoD摘要数据集,供后续研究使用。
已下架不支持订阅
1113

被折叠的 条评论
为什么被折叠?



