Pinterest用户年龄和性别识别研究
1. 研究背景与问题
在社交媒体的数据分析中,用户的年龄和性别识别是一个重要的研究方向。通过分析用户生成的图像和文本数据,可以构建机器学习模型来预测用户的年龄和性别。本研究主要探讨以下两个问题:
- 不同的机器学习模型在处理不同类型信息(图像和文本)时的表现如何?
- 哪种类型(或组合)的信息在预测年龄和性别时表现最佳?
2. 相关工作
以往对社交媒体用户年龄和性别的识别研究采用了多种方法。部分研究基于个人面部图像,使用支持向量机(SVM)分类器和局部二值模式、尺度不变特征变换(SIFT)及颜色直方图等特征;还有研究使用独立成分分析和主动外观模型从个人面部和全身图像中提取特征,以识别作者的性别、年龄、面部表情和身份。
然而,社交媒体中个人图像的获取有时较为困难,许多用户不发布个人信息或平台会隐藏此类信息。因此,研究人员开始关注从用户生成的内容中预测年龄和性别。例如,有研究使用视觉词袋方法结合SIFT特征从用户发布的图像中预测性别;也有研究在文本数据上应用SVM,结合单词和n - 元特征进行年龄和性别识别。
3. 研究方法
3.1 数据集描述
- 最初通过爬取Pinterest网站,随机收集了来自674个用户的约120万个图钉(pin)。每个图钉包含一张图像和一段文本评论。
- 数据清洗步骤如下:
- 丢弃图钉数量少于500的用户。
- 移除文本语言不是英语的图钉。
- 由三名评委手动访问用户资料,选择并标记能够识别性别和年龄
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



