别看了,只是新手的笔记,很多都是错的!
文件说明
这些文件包含大约3,900部电影的1,000,209个匿名评级,由2000年加入MovieLens的6,040名MovieLens用户制作。
评级文件说明
用户名:: MovieID ::评级::时间戳

- UserID的范围在1到6040之间
- MovieID的范围在1到3952之间
- 评级为5星级(仅限全星评级)
- 时间戳以秒为单位表示,因为时间(2)返回
- 每个用户至少有20个评级
用户文件说明
用户名::性别::年龄::职业::邮政编码

性别用男性表示“M”,女性表示“F”
年龄选自以下范围:
- 1:“18岁以下” * 18:“18-24” * 25:“25-34” * 35:“35-44” * 45:“45-49”
- 50:“50-55” * 56:“56+”
职业选自以下选择:
- 0:“其他”或未指定 * 1:“学术/教育者” * 2:“艺术

本文记录了一位新手在分析MovieLens数据集过程中的一些笔记,包括文件说明、构造样本数据的经验,以及在处理用户信息、电影信息和评级时的独热编码和正则项的重要性。通过实践,作者发现独热编码对提高预测准确率至关重要,同时正则项能有效防止过拟合。
最低0.47元/天 解锁文章
897

被折叠的 条评论
为什么被折叠?



