文章主要内容总结
本文探讨了利用文体计量学(stylometry)区分大语言模型(LLMs)与人类生成文本的方法,旨在解决模型归属、知识产权及AI伦理使用等问题。研究构建了一个基于维基百科的数据集,通过多种文本摘要方法(T5、BART、Gensim、Sumy)和LLMs(GPT-3.5、GPT-4、LLaMa 2/3、Orca、Falcon)生成10句长的文本,并使用决策树和LightGBM等树模型,基于人工设计的(StyloMetrix)和n-gram的文体特征(涵盖词汇、语法、句法、标点等模式)进行分类。
结果显示,在7类多分类场景中,马修斯相关系数(Matthews correlation coefficient)最高达0.87;二分类场景中,准确率在0.79-1.0之间,其中维基百科文本与GPT-4生成文本的区分准确率高达0.98。通过SHAP(Shapley Additive Explanations)分析发现,LLM生成文本具有更强的语法规范性,存在特定词汇过度使用等特征,而人类撰写的维基百科文本则包含更多专有名词、日期等百科全书式特征。研究强调,在LLM日益复杂的背景下,文体计量学可为追踪AI生成内容、确保伦理使用提供可靠技术支持。
文章创新点
- 文体计量学的跨领域应用:将传统用于作者归属和文学风格分析的文体计量学应用于区分LLM与人类生成文本,验证了其识别LLM特有写作模式的有效性。
- 多样化数据集构建:基于维基百科文本及其经多种摘要方法和LLMs处理的结果构建数据集,支持对不同文本生成方式的全面分析。
- <
订阅专栏 解锁全文
772

被折叠的 条评论
为什么被折叠?



