20、幽默识别与创作:从算法到实践

幽默识别与AI创作实践探索

幽默识别与创作:从算法到实践

1. 反讽检测与幽默数据收集

1.1 反讽分类器训练与测试

Reyes训练了一个反讽分类器,利用从Twitter收集的带有#irony、#education、#politics和#humor标签的数据集进行测试。除了尖锐性和时间不平衡性这两个特征在#humor数据集中更常见外,其他特征在#irony数据集中更为普遍。他使用平衡(50:50)和不平衡(30:70)的反讽和非反讽数据分割进行训练和测试,以反映日常使用中反讽比非反讽更少见的现实。该分类器在平衡数据分割上的准确率通常为70% - 75%,在不平衡数据分割上为75% - 80%。

1.2 幽默数据收集方法

在教机器区分笑话和非笑话时,负面样本和正面样本同样重要。不同的研究者采用了不同的方法收集数据:
- Mihalcea、Strapparava和Pulman让大众为单口笑话提出枯燥的替代方案,并自行挑选出最不机智的建议。
- Reyes从网络上检索出与原始句子长度分布相同的新句子集。

2. 基于《洋葱报》的幽默分析

2.1 《洋葱报》作为幽默数据源

《洋葱报》是一个讽刺新闻网站,其虚假头条使用新闻写作手法来包装对政治、文化和历史的幽默看法。像“泰格·伍兹重返性爱”或“英国石油公司准备恢复漏油”这样的头条,与真实头条非常相似,但结尾的意外转折让人惊讶。这种对共同期望和热门话题的创新处理,使其成为积极样本的宝库,每个笑话背后都隐藏着不幽默的负面版本。

2.2 unfun.me游戏

Bob West和Eric Horvitz创建了一个名为un

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值