9、推特用户性别分类与多语言自然语言处理工具

推特用户性别分类与多语言自然语言处理工具

推特用户性别分类

在社交媒体分析中,自动检测推特用户的性别是一项有意义的任务。研究人员采用了一种利用非结构化个人资料信息来自动检测推特用户性别的方法。

他们在约24.4万英语用户数据集和约1.6万葡萄牙语用户数据集上评估了一些与姓名相关的特征。使用了不同的监督和无监督方法来评估这些特征的性能。

实验结果显示,这些特征在区分推特用户性别方面表现出色。使用监督方法时,准确率约为97.9%;使用基于模糊c - 均值的无监督方法时,准确率约为96.4%。模糊c - 均值方法非常适合这项任务,原因如下:
1. 它不需要标记数据,这在处理推特数据时很重要。
2. 随着数据量的增加,其性能会提高。
3. 其性能与最佳监督方法接近(仅低1.5%)。

实验还表明,将英语和葡萄牙语用户数据集结合起来,可以进一步提高性能。当用于学习聚类的数据超过5万用户时,模糊c - 均值的性能趋于稳定,可能是由于标记数据量相对较少。

未来的工作将包括以半自动的方式创建一个扩展的标记数据集,基于所提出的特征进行自动注释。利用这样的标记数据集,将用户提供的文本内容与其性别关联起来,创建纯粹基于文本内容的性别模型。此外,还将为推特数据集创建年龄模型。

多语言自然语言处理工具

介绍了一款名为CitiusTools的多语言自然语言处理(NLP)套件,它由Perl语言编写,并遵循GPL许可证发布。该套件可以执行句子分块、分词、词性标注、词形还原和命名实体识别(NER)等任务。

相关工作

近年来,有几个开源的NLP套件可供用户使用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值