DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

最新推荐文章于 2025-03-05 10:04:04 发布

UnknownBody

最新推荐文章于 2025-03-05 10:04:04 发布

阅读量919

点赞数

文章标签：人工智能深度学习语言模型

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132619268

版权

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

DetectGPT是一种零样本机器生成文本检测方法，通过分析大型语言模型的对数概率函数的负曲率区域来判断文本是否由模型生成。无需额外训练，DetectGPT在检测GPT-NeoX生成的假新闻时表现出高鉴别力，AUROC从0.81提升到0.95。该方法依赖于模型计算的对数概率和随机扰动，但受限于白盒假设和计算密集度。未来研究可能探索与水印算法的结合以及在其他生成模型中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》的翻译。

摘要

大型语言模型（LLM）的日益流畅和广泛使用突出了相应工具的可取性，这些工具有助于检测LLM生成的文本。在本文中，我们确定了LLM概率函数结构的一个性质，该性质对这种检测有用。具体来说，我们证明了从LLM中采样的文本往往占据模型对数概率函数的负曲率区域。利用这一观察结果，我们定义了一个新的基于曲率的标准，用于判断通道是否由给定的LLM生成。这种方法，我们称之为DetectGPT，不需要训练单独的分类器，不需要收集真实或生成的段落的数据集，也不需要显式地为生成的文本添加水印。它只使用由感兴趣的模型计算的对数概率和来自另一个通用的预先训练的语言模型（例如T5）的文章的随机扰动。我们发现，对于模型样本检测，DetectGPT比现有的零样本方法更具鉴别力，显著地将由20B参数GPT-NeoX生成的假新闻文章的检测从最强零样本基线的0.81 AUROC提高到DetectGPT的0.95 AUROC。有关代码、数据和其他项目信息，请参阅ericmitchell.ai/detectgpt。