文本风格分析:从推特到政治演讲
1. 推特分类任务
1.1 识别推文作者是人还是机器人
基于338,000条推文的数据集,第一个分类任务是识别一组100条推文是由机器人还是人类生成的。可以应用整体文体测量方法,如词汇密度或类型 - 标记比(TTR)作为初步有效的过滤器。
| 特征 | 机器人推文 | 人类推文 |
|---|---|---|
| TTR | 低,倾向于重复相同的单词和表达 | 无此特征 |
| 词汇密度 | 高,内容可能局限于简单的形容词和名词列表或口号 | 无此特征 |
| 超链接和主题标签 | 多 | 少 |
| 提及和表情符号 | 少 | 多 |
使用基于七个特征的简单分类模型,准确率可超过90%。
1.2 识别推文作者的性别
第二个任务是确定一组100条推文是由男性还是女性撰写的。这比第一个任务更具挑战性,但并非不可能。
| 特征 | 女性作者 |
|---|
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



