基于预训练模型的角色对话生成:从数据构建到模型评估
1. 数据收集
1.1 角色扮演问答语料库
为了收集特定角色的问答数据,创建了一个网站,角色粉丝可以在上面向角色提问,并以角色的身份回答问题。为了促进互动,网站展示用户的发帖排名,每个答案旁边还有“点赞”按钮。尽管用户没有报酬,但数据收集速度较快,1.3 小时可收集 1K 对问答,16 小时可收集 10K 对。数据收集使用日语,以著名日本电子游戏《STEINS;GATE》中的角色 Amadeus Kurisu 为例,收集了约 44K 对问答。以下是该语料库的统计信息:
| 统计指标 | 数值 |
| — | — |
| 参与用户数量 | 1,916 |
| 问答对数量 | 44,805 |
| 问题数量 | 23,466 |
| 每个问题的词元数量 | 11.2 |
| 每个问题的字母数量 | 22.5 |
| 所有问题中的唯一词元数量 | 18,132 |
| 答案数量 | 43,752 |
| 每个答案的词元数量 | 15.3 |
| 每个答案的字母数量 | 32.1 |
| 所有答案中的唯一词元数量 | 22,977 |
示例问答对如下:
- Q: Could you tell me your name?
- A1: My name is Kurisu. I’ve been looking forward to meeting you.
- A2: This is Kurisu Makise. What’s up?
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



