推特用户性别分类与多语言自然语言处理工具
推特用户性别分类
在社交媒体分析中,自动检测推特用户的性别是一项有意义的任务。研究人员采用了一种利用非结构化个人资料信息来自动检测推特用户性别的方法。
他们在约24.4万英语用户数据集和约1.6万葡萄牙语用户数据集上评估了一些与姓名相关的特征。使用了不同的监督和无监督方法来评估这些特征的性能。
实验结果显示,这些特征在区分推特用户性别方面表现出色。使用监督方法时,准确率约为97.9%;使用基于模糊c - 均值的无监督方法时,准确率约为96.4%。模糊c - 均值方法非常适合这项任务,原因如下:
1. 它不需要标记数据,这在处理推特数据时很重要。
2. 随着数据量的增加,其性能会提高。
3. 其性能与最佳监督方法接近(仅低1.5%)。
实验还表明,将英语和葡萄牙语用户数据集结合起来,可以进一步提高性能。当用于学习聚类的数据超过5万用户时,模糊c - 均值的性能趋于稳定,可能是由于标记数据量相对较少。
未来的工作将包括以半自动的方式创建一个扩展的标记数据集,基于所提出的特征进行自动注释。利用这样的标记数据集,将用户提供的文本内容与其性别关联起来,创建纯粹基于文本内容的性别模型。此外,还将为推特数据集创建年龄模型。
多语言自然语言处理工具
介绍了一款名为CitiusTools的多语言自然语言处理(NLP)套件,它由Perl语言编写,并遵循GPL许可证发布。该套件可以执行句子分块、分词、词性标注、词形还原和命名实体识别(NER)等任务。
相关工作
近年来,有几个开源的NLP套件可供用户使用。
超级会员免费看
订阅专栏 解锁全文
1011

被折叠的 条评论
为什么被折叠?



