等不到结尾?没关系,AI来填坑了

卡内基梅隆大学的研究人员设计了一种新方法,使AI能够为故事创作更多样化和有趣的结局。通过集中注意力于故事的重要词组,该模型在Story-Cloze任务中达到了72%的准确率。
部署运行你感兴趣的模型镜像


大数据文摘出品

编译:林苗  


追小说的时候最怕的是什么?烂尾!比烂尾更可怕的是什么?是作者大大写着写着弃坑了。而现在,有一只能为给定的故事创造多样化结局的AI了。


OpenAI的GPT-2是一个非常高大上的自然语言处理系统,在其他同类型的AI还在“前后是否连贯一致”和“是否足够像人”这两个问题上苦苦挣扎时,它已经能生成一篇高度拟人化的演讲。


一般AI创作的故事结尾都是套用相似的通用模板,而且缺乏内容上的连贯性。为了克服这一明显的短板,卡内基梅隆大学计算机科学学院的科学家们设计出了一种新的方法,这个方法的关键在于将训练模型的注意力集中在故事的重要词组上,促进特定词汇的产生。


相关研究论文链接

https://arxiv.org/pdf/1907.08259.pdf


“所谓故事的语境,其实就是把特征和事件连接起来的句子序列。这个任务的难点在于对上下文本的特征、事件以及其他对象进行建模,再基于这个模型,产生一个既符合逻辑,又符合常理的结局。其中,对事件、其他实体,以及他们在整个故事中的关系进行语义学的归纳提取,是一个非常艰巨且重要的任务。”合作者指出,“我们的研究表明,两者结合能产生更多样化、更有趣的故事结局。”


  研究所用模型的部分输出结果


该团队利用seq2seq翻译模型(一种能够学习依赖关系的长短时记忆深度神经网络)去形成目标故事语境中词汇的数学表征,然后对这些词汇的关系进行训练,再将它们重新翻译成人类可读的文本。


为了能整合吸收故事中的关键词组,研究者们使用RAKE算法进行提取,并基于词组中单词的词频和共现率进行打分,再根据相应的分数,对这些词组进行人工分类。只有达到特定阈值的词组,才会被认为是重要的。


为了能产生结局,研究者们在ROCStories语料库上对模型进行训练,该语料库涵盖了50,000多个五句话的微故事。


 


为了评估训练模型的好坏,研究者们首先采用DIST(distinct)命令来计算所产生的结局中,去重后的一元语法(unigram,给定样本中,n个对象的连续序列)、二元语法(bigram,一对相邻的书面单元如字母、音节或单词)和三元语法(trigram,三个相邻的书面单元)的数量,再把这些数量分别在总的一元语法、二元语法和三元语法中的占比作为衡量指标。


在另一项独立的测试中,研究者们采用开源的Story-Cloze任务(故事型常识阅读理解任务),对谷歌的BERT模型训练,并与基准水平进行比较。该任务要求是,根据给定语境的四句话,在两个候选句子中选出哪一句是可以根据前四句推导出来的。


那么,AI表现如何呢?普利策奖应该是拿不了的。



尽管这个模型在DIST中表现得非常好,并且在Story-Cloze测试中达到了72%的准确率,但它偶尔还是会产生一些不合理的结局,比如“Katie被他自己震惊了,并抛弃了她的男朋友”,或者引用一些与名词词性不符的代词(Katie为女名,与himself矛盾)。


研究者们承认,想要确保输出结果“保持故事语境中的语义学和一定水准”,并且在逻辑上合理一致,还需要更进一步的深入研究。尽管如此,他们也还是坚持认为他们已经从“定量”和“定性”两个角度来表明,他们的模型能够在基线水平上实现“重大的”改进。


您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

采用PyQt5框架与Python编程语言构建图书信息管理平台 本项目基于Python编程环境,结合PyQt5图形界面开发库,设计实现了一套完整的图书信息管理解决方案。该系统主要面向图书馆、书店等机构的日常运营需求,通过模块化设计实现了图书信息的标准化管理流程。 系统架构采用典型的三层设计模式,包含数据存储层、业务逻辑层和用户界面层。数据持久化方案支持SQLite轻量级数据库与MySQL企业级数据库的双重配置选项,通过统一的数据库操作接口实现数据存取隔离。在数据建模方面,设计了包含图书基本信息、读者档案、借阅记录等核心数据实体,各实体间通过主外键约束建立关联关系。 核心功能模块包含六大子系统: 1. 图书编目管理:支持国际标准书号、中国图书馆分类法等专业元数据的规范化著录,提供批量导入与单条录入两种数据采集方式 2. 库存动态监控:实时追踪在架数量、借出状态、预约队列等流通指标,设置库存预警阈值自动提醒补货 3. 读者服务管理:建立完整的读者信用评价体系,记录借阅历史与违规行为,实施差异化借阅权限管理 4. 流通业务处理:涵盖借书登记、归还处理、续借申请、逾期计算等标准业务流程,支持射频识别技术设备集成 5. 统计报表生成:按日/月/年周期自动生成流通统计、热门图书排行、读者活跃度等多维度分析图表 6. 系统维护配置:提供用户权限分级管理、数据备份恢复、操作日志审计等管理功能 在技术实现层面,界面设计遵循Material Design设计规范,采用QSS样式表实现视觉定制化。通过信号槽机制实现前后端数据双向绑定,运用多线程处理技术保障界面响应流畅度。数据验证机制包含前端格式校验与后端业务规则双重保障,关键操作均设有二次确认流程。 该系统适用于中小型图书管理场景,通过可扩展的插件架构支持功能模块的灵活组合。开发过程中特别注重代码的可维护性,采用面向对象编程范式实现高内聚低耦合的组件设计,为后续功能迭代奠定技术基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值