概述
研究背景
叙事和其他形式的话语是传递信息、娱乐和社会认知的重要工具。尽管人们经常用“快速移动”“覆盖广泛内容”“绕圈”等形容叙事特征,但很少有研究量化这些特征并检验它们是否影响成功。为弥补这一空白,论文使用自然语言处理和机器学习技术,通过量化语义路径(速度、范围和迂回度)的特征,探讨这些特征与成功(如电影评分或论文引用)的关系。
研究目标
研究旨在提供一套简单的量化方法,捕捉叙事或话语的语义进展特征,探讨这些特征如何与不同领域的成功相关联(如电影、电视剧和学术论文)。
相关工作
对叙事结构的研究
- Freytag’s Dramatic Structure:经典的戏剧结构理论指出,成功的叙事通常具有清晰的起承转合。
- Vonnegut’s Story Shapes:文学作品中情感曲线和故事情节的变化能够预测叙事的受欢迎程度。
文本特征与成功的关系
- 叙事速度:Hume(2005)指出,在小说中,叙事速度越快的作品越具有吸引力。
- 情感轨迹:Reagan 等(2016)的研究表明,叙事中的情感变化轨迹(如高潮和低谷)是成功的重要预测因素。
自然语言处理和文化分析
- 自然语言处理(NLP):研究借鉴了 Mikolov 等(2018)提出的词嵌入模型(如 word2vec),将文本片段嵌入到高维语义空间,以捕捉其语义关系。
- 文化成功的动态:Uzzi 等(2013)发现,将不相关的知识领域连接在一起的论文往往更受欢迎,这为论文中“语义范围广的学术论文更容易获得高引用”提供了支持。
迂回路径和认知连接
- 循环式学习:Harden(1999)的“螺旋式课程”理论指出,重复回访主题有助于学习者整合信息。
- 叙事迂回的认知效应:Loewenstein 和 Heath(2009)提出,“重复-突破”结构能够促进听众对叙事的理解和记忆。
实验
数据集
研究使用了以下三个主要数据集:
电影字幕:包括 4118 部电影的 IMDB 评分数据。
电视剧:包括 12401 集电视剧的 IMDB 评分数据。
学术论文:包括 29300 篇学术论文的引用数据,涵盖心理学、经济学、社会学、政治学和人类学。时间为1990-2019年。
数据预处理
文本分块: 文本被分割为长度大致相同的语义单元(窗口),每个窗口包含约 250 个词。同时考虑到语义完整性,是按照句子来进行窗口滑动,比如说前10个句子已经有240个词,第11个句子包含15个词,那么这个窗口就是11个句子,255个词。
词嵌入向量: 使用 word2vec 模型将每个词映射为 300 维向量,然后计算每个窗口的平均词向量,表示该窗口在语义空间中的位置。
对于窗口 t,其平均向量为:
x t = ∑ w ∈ c t x w ∣ c t ∣ x_t = \frac{\sum_{w \in c_t} x_w}{|c_t|} xt=∣ct∣∑w∈ctxw
速度计算
“速度”表示文本在语义空间中连续窗口之间的变化程度,反映内容的转移速率。
较快的语义变化可能更吸引人(更具刺激性),但也会增加认知负担,使理解变得困难。
欧几里得距离计算
- 对每两个连续窗口,计算其语义向量之间的欧几里得距离:
Distance ( t ) = ∥ x t + 1 − x t ∥ \text{Distance}(t) = \|x_{t+1} - x_t\| Distance(t)=∥xt+1−xt∥
其中:- x t + 1 x_{t+1} xt+1 和 x t x_t xt 分别是窗口 t + 1 t+1 t+1 和 t t t 的平均向量;
- ∥ ⋅ ∥ \|\cdot\| ∥⋅∥ 表示欧几里得范数。
得到平均速度
- 将所有连续窗口的距离相加,并归一化得到平均速度:
Speed = ∑ t = 1 T − 1 Distance ( t ) T − 1 \text{Speed} = \frac{\sum_{t=1}^{T-1} \text{Distance}(t)}{T-1} Speed=T−1∑t=1T−1Distance(t</