幽默识别与创作:从算法到实践
1. 反讽检测与幽默数据收集
1.1 反讽分类器训练与测试
Reyes训练了一个反讽分类器,利用从Twitter收集的带有#irony、#education、#politics和#humor标签的数据集进行测试。除了尖锐性和时间不平衡性这两个特征在#humor数据集中更常见外,其他特征在#irony数据集中更为普遍。他使用平衡(50:50)和不平衡(30:70)的反讽和非反讽数据分割进行训练和测试,以反映日常使用中反讽比非反讽更少见的现实。该分类器在平衡数据分割上的准确率通常为70% - 75%,在不平衡数据分割上为75% - 80%。
1.2 幽默数据收集方法
在教机器区分笑话和非笑话时,负面样本和正面样本同样重要。不同的研究者采用了不同的方法收集数据:
- Mihalcea、Strapparava和Pulman让大众为单口笑话提出枯燥的替代方案,并自行挑选出最不机智的建议。
- Reyes从网络上检索出与原始句子长度分布相同的新句子集。
2. 基于《洋葱报》的幽默分析
2.1 《洋葱报》作为幽默数据源
《洋葱报》是一个讽刺新闻网站,其虚假头条使用新闻写作手法来包装对政治、文化和历史的幽默看法。像“泰格·伍兹重返性爱”或“英国石油公司准备恢复漏油”这样的头条,与真实头条非常相似,但结尾的意外转折让人惊讶。这种对共同期望和热门话题的创新处理,使其成为积极样本的宝库,每个笑话背后都隐藏着不幽默的负面版本。
2.2 unfun.me游戏
Bob West和Eric Horvitz创建了一个名为un
幽默识别与AI创作实践探索
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



