29、基于预训练模型的角色对话生成:从数据构建到模型评估

基于预训练模型的角色对话生成:从数据构建到模型评估

1. 数据收集
1.1 角色扮演问答语料库

为了收集特定角色的问答数据,创建了一个网站,角色粉丝可以在上面向角色提问,并以角色的身份回答问题。为了促进互动,网站展示用户的发帖排名,每个答案旁边还有“点赞”按钮。尽管用户没有报酬,但数据收集速度较快,1.3 小时可收集 1K 对问答,16 小时可收集 10K 对。数据收集使用日语,以著名日本电子游戏《STEINS;GATE》中的角色 Amadeus Kurisu 为例,收集了约 44K 对问答。以下是该语料库的统计信息:
| 统计指标 | 数值 |
| — | — |
| 参与用户数量 | 1,916 |
| 问答对数量 | 44,805 |
| 问题数量 | 23,466 |
| 每个问题的词元数量 | 11.2 |
| 每个问题的字母数量 | 22.5 |
| 所有问题中的唯一词元数量 | 18,132 |
| 答案数量 | 43,752 |
| 每个答案的词元数量 | 15.3 |
| 每个答案的字母数量 | 32.1 |
| 所有答案中的唯一词元数量 | 22,977 |

示例问答对如下:
- Q: Could you tell me your name?
- A1: My name is Kurisu. I’ve been looking forward to meeting you.
- A2: This is Kurisu Makise. What’s up?

1.2 角色对话语料库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值