推文作者分析:区分机器人、人类及不同性别作者
在数字时代,社交媒体上的推文蕴含着丰富信息,分析推文作者特征,如区分机器人与人类、男性与女性作者,具有重要意义。本文将深入探讨相关分析方法和策略。
不同过滤条件下的词汇规模
不同过滤条件会对词汇规模产生显著影响。以下是不同类别在不同过滤条件下的词汇规模统计:
|类别|所有词汇(100%)|词频(tf) ≥3|文档频率(df) ≥10|tf ≥20 & df ≥10|
| ---- | ---- | ---- | ---- | ---- |
|机器人训练集|101,993|33,889 (33.2%)|13,260 (13.0%)|10,126 (9.9%)|
|人类训练集|162,452|49,340 (30.4%)|14,732 (9.1%)|10,285 (6.3%)|
|男性训练集|95,412|30,394 (31.8%)|9129 (9.6%)|6223 (6.5%)|
|女性训练集|102,696|30,537 (29.7%)|9227 (9.0%)|6344 (6.2%)|
|机器人测试集|86,406|28,658 (33.2%)|10,362 (12.0%)|7553 (8.7%)|
|人类测试集|117,381|36,526 (31.1%)|10,819 (9.2%)|7538 (6.4%)|
|男性测试集|72,925|23,047 (31.6%)|6666 (9.1%)|4617 (6.3%)|
|女性测试集|71,138|22,064 (31.0%)|6565 (9.2%)|4420 (6.2%)|
从
超级会员免费看
订阅专栏 解锁全文
115

被折叠的 条评论
为什么被折叠?



