文章主要内容总结
本文研究了大型语言模型(LLMs)在模拟社交媒体政治话语时的行为,重点分析了其在2024年美国大选期间X平台(原Twitter)政治互动中的表现。研究基于1186个真实用户构建了LLM代理,通过“零样本”(仅提供最小意识形态线索)和“少样本”(提供用户近期推文历史)两种初始化方式,让代理回复政治相关推文,并对比了Gemini、Mistral、DeepSeek三个模型家族在语言风格、意识形态一致性和毒性方面的输出。
核心发现包括:
- 生成夸张(generative exaggeration)现象:LLMs并非简单模仿用户,而是系统地放大用户的显著特征(如意识形态倾向、情绪化表达),超出实证基线,形成“夸张重构”。
- 语境的双重影响:丰富的语境(少样本)提升了代理的内部一致性,但加剧了极化、风格化信号(如标签、表情符号)和有害语言。
- 不对称性:对右翼用户的夸张程度高于左翼用户,尽管两者均受影响。
- 结构性偏差:LLM输出更多反映模型内部优化动态,而非真实用户行为,这对其在内容 moderation、政治模拟和政策建模中的可靠性提出挑战。
创新点
- 提出“生成夸张”概念,揭示LLMs在模拟社会行为时对用户特征的系统性放大机制,突破了“LLMs是否忠实模仿”的传统视角,转向分析其“如何扭曲结构”。
- 对比不同模型家族(来自美、中、欧)和规模的表现,发现模型的地域背景、
订阅专栏 解锁全文
7534

被折叠的 条评论
为什么被折叠?



