一、文章主要内容
本文聚焦大型语言模型(LLMs)在口述历史理解中的应用,以日裔美国人监禁口述历史(JAIOH)为研究对象,旨在解决口述历史档案因非结构化格式、情感复杂性及人工标注成本高而难以大规模分析的问题。
1. 研究框架与数据基础
- 多阶段研究方法:整合专家标注、提示词设计与LLM评估,涉及ChatGPT、Llama、Qwen三种模型。先由领域专家手动标注15位讲述者的558个句子,确定情感(积极、中性、消极)与语义(传记信息、监禁前生活等6类)标签;再基于标注数据,采用零样本、少样本和检索增强生成(RAG)三种提示策略评估模型性能。
- 数据规模与处理:从Densho数字仓库收集1002份口述历史转录文本,经去重、筛选后得到92191个有效句子,用于后续自动标注与分析,如实体提取(采用DSLIM/BERT-base-NER模型结合规则匹配)和主题建模(使用BERTopic)。
2. 模型性能与结果
- 语义分类:ChatGPT表现最佳,F1值达88.71%,其次是Llama(84.99%)和Qwen(83.72%)。
- 情感分析:Llama略胜一筹,F1值为82.87%,Qwen(82.66%)和ChatGPT(82.29%)紧随其后,三者整体性能相近。
- 大规模标注应用:根据评估结果,选择各任务最优提示配置,对9219
订阅专栏 解锁全文
1232

被折叠的 条评论
为什么被折叠?



