Stylometry recognizes human and LLM-generated texts in short samples

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量345

点赞数 9

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/149255197

LLM Daily 专栏收录该内容

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容总结

本文探讨了利用文体计量学（stylometry）区分大语言模型（LLMs）与人类生成文本的方法，旨在解决模型归属、知识产权及AI伦理使用等问题。研究构建了一个基于维基百科的数据集，通过多种文本摘要方法（T5、BART、Gensim、Sumy）和LLMs（GPT-3.5、GPT-4、LLaMa 2/3、Orca、Falcon）生成10句长的文本，并使用决策树和LightGBM等树模型，基于人工设计的（StyloMetrix）和n-gram的文体特征（涵盖词汇、语法、句法、标点等模式）进行分类。

结果显示，在7类多分类场景中，马修斯相关系数（Matthews correlation coefficient）最高达0.87；二分类场景中，准确率在0.79-1.0之间，其中维基百科文本与GPT-4生成文本的区分准确率高达0.98。通过SHAP（Shapley Additive Explanations）分析发现，LLM生成文本具有更强的语法规范性，存在特定词汇过度使用等特征，而人类撰写的维基百科文本则包含更多专有名词、日期等百科全书式特征。研究强调，在LLM日益复杂的背景下，文体计量学可为追踪AI生成内容、确保伦理使用提供可靠技术支持。

文章创新点

文体计量学的跨领域应用：将传统用于作者归属和文学风格分析的文体计量学应用于区分LLM与人类生成文本，验证了其识别LLM特有写作模式的有效性。
多样化数据集构建：基于维基百科文本及其经多种摘要方法和LLMs处理的结果构建数据集，支持对不同文本生成方式的全面分析。
<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。