基于自然语言处理的诗学比较研究
1. 引言
深度学习是机器学习的新领域,基于数据表示的学习方法,源于人工神经网络研究。其目的是通过组合低级特征形成更抽象的高级表示,以发现数据分布。
早期深度学习中的神经网络起源于1943年的MCP人工神经元模型,用于模拟人类神经元反应。1958年,Rosenblatt发明了使用MCP进行机器学习的感知机算法。自然语言的深度学习始于2006年Hinton提出的深度信念网络(DBN)概念,此前神经网络复杂难训练,多作为数学理论研究。词向量模型是自然语言深度学习中常用的模型,核心是将语言符号化为适合机器学习的0和1模式。
之前已有不少关于自然语言深度学习的研究,有的基于词向量模型研究文本的句法和语义,有的比较不同模型在相似任务中的效率,还有的用大量诗歌语料进行情感识别。基于这些研究,我们将使用传统词向量模型进行比较诗学研究。
2. 材料与方法
2.1 材料
选取了五位诗人的作品,其中四位来自英国,分别是托马斯·哈代(Thomas Hardy)、王尔德(Wilde)、勃朗宁(Browning)和叶芝(Yeats),另一位是来自印度的泰戈尔(Tagore)。具体选取数量如下:
| 诗人 | 诗歌数量 |
| — | — |
| 托马斯·哈代 | 257首 |
| 王尔德 | 96首 |
| 勃朗宁 | 63首 |
| 叶芝 | 近400首 |
| 泰戈尔 | 86首 |
选择这五位诗人的原因主要有两点:一是他们作品的原文均为英语,避免了翻译误差对分析结果的影响;二是他们生活年代相近,作品大多创作于19
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



