完整代码
前言
最近在B站杰哥区看了几百集平行宇宙剧本,也看过114514次翻译和AI续写的版本。忽然,萌生了一个想法:如果把200多句对白部分的字词遮罩,让AI去填写会有什么效果呢?。我很好奇,因此本代码主要以全词遮罩的中文预训练模型BERT-wwm去探索"杰哥不要"的可能性。
参考
HuggingFace Transformer API
中文BERT-wwm
杰哥不要啦完整台词整理
BERT模型 vs 王思聪!看一看谁的土味情话更加肉麻?
数据收集
这里感谢up主碳酸镁儿的整理,这里主要是关键对白,本人

本文通过使用BERT-wwm模型进行全词遮罩填充,研究在“杰哥不要”场景中AI如何填补空白。实验发现,模型对于没有前后文的字词和日常称呼预测效果不佳,而追求连贯性的文本生成则更有效。未来可能在非传统文本训练上找到新的可能性。
最低0.47元/天 解锁文章
307

被折叠的 条评论
为什么被折叠?



