【写作科研化】How quantifying the shape of stories predicts their success

概述

研究背景

叙事和其他形式的话语是传递信息、娱乐和社会认知的重要工具。尽管人们经常用“快速移动”“覆盖广泛内容”“绕圈”等形容叙事特征,但很少有研究量化这些特征并检验它们是否影响成功。为弥补这一空白,论文使用自然语言处理和机器学习技术,通过量化语义路径(速度、范围和迂回度)的特征,探讨这些特征与成功(如电影评分或论文引用)的关系。

研究目标

研究旨在提供一套简单的量化方法,捕捉叙事或话语的语义进展特征,探讨这些特征如何与不同领域的成功相关联(如电影、电视剧和学术论文)。

相关工作

对叙事结构的研究

  • Freytag’s Dramatic Structure:经典的戏剧结构理论指出,成功的叙事通常具有清晰的起承转合。
  • Vonnegut’s Story Shapes:文学作品中情感曲线和故事情节的变化能够预测叙事的受欢迎程度。

文本特征与成功的关系

  • 叙事速度:Hume(2005)指出,在小说中,叙事速度越快的作品越具有吸引力。
  • 情感轨迹:Reagan 等(2016)的研究表明,叙事中的情感变化轨迹(如高潮和低谷)是成功的重要预测因素。

自然语言处理和文化分析

  • 自然语言处理(NLP):研究借鉴了 Mikolov 等(2018)提出的词嵌入模型(如 word2vec),将文本片段嵌入到高维语义空间,以捕捉其语义关系​。
  • 文化成功的动态:Uzzi 等(2013)发现,将不相关的知识领域连接在一起的论文往往更受欢迎,这为论文中“语义范围广的学术论文更容易获得高引用”提供了支持​。

迂回路径和认知连接

  • 循环式学习:Harden(1999)的“螺旋式课程”理论指出,重复回访主题有助于学习者整合信息​。
  • 叙事迂回的认知效应:Loewenstein 和 Heath(2009)提出,“重复-突破”结构能够促进听众对叙事的理解和记忆​。

实验

数据集

研究使用了以下三个主要数据集:

电影字幕:包括 4118 部电影的 IMDB 评分数据。
电视剧:包括 12401 集电视剧的 IMDB 评分数据。
学术论文:包括 29300 篇学术论文的引用数据,涵盖心理学、经济学、社会学、政治学和人类学。时间为1990-2019年。

数据预处理

文本分块: 文本被分割为长度大致相同的语义单元(窗口),每个窗口包含约 250 个词。同时考虑到语义完整性,是按照句子来进行窗口滑动,比如说前10个句子已经有240个词,第11个句子包含15个词,那么这个窗口就是11个句子,255个词。

词嵌入向量: 使用 word2vec 模型将每个词映射为 300 维向量,然后计算每个窗口的平均词向量,表示该窗口在语义空间中的位置。
对于窗口 t,其平均向量为:
x t = ∑ w ∈ c t x w ∣ c t ∣ x_t = \frac{\sum_{w \in c_t} x_w}{|c_t|} xt=ctwctxw

速度计算

“速度”表示文本在语义空间中连续窗口之间的变化程度,反映内容的转移速率。
较快的语义变化可能更吸引人(更具刺激性),但也会增加认知负担,使理解变得困难。

欧几里得距离计算
  • 对每两个连续窗口,计算其语义向量之间的欧几里得距离:
    Distance ( t ) = ∥ x t + 1 − x t ∥ \text{Distance}(t) = \|x_{t+1} - x_t\| Distance(t)=xt+1xt
    其中:
    • x t + 1 x_{t+1} xt+1 x t x_t xt 分别是窗口 t + 1 t+1 t+1 t t t 的平均向量;
    • ∥ ⋅ ∥ \|\cdot\| 表示欧几里得范数。
得到平均速度
  • 将所有连续窗口的距离相加,并归一化得到平均速度:
    Speed = ∑ t = 1 T − 1 Distance ( t ) T − 1 \text{Speed} = \frac{\sum_{t=1}^{T-1} \text{Distance}(t)}{T-1} Speed=T1t=1T1Distance(t</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值