数据集
https://grouplens.org/datasets/movielens/
评级文件描述
================================================================================
所有评级都包含在文件“ratings.dat”中,并且在
以下格式:
用户标识::MovieID::评级::时间戳
—userid的取值范围为1 ~ 6040
—MovieIDs的取值范围为1 ~ 3952
- 5星评级(只提供全星评级)
时间戳(Timestamp)的单位是秒,从time(2)返回的epoch开始。
-每个用户至少有20个评级
用户文件描述
================================================================================
用户信息在“users.dat”文件中,如下
格式:
用户标识:性别:年龄::职业::你的
UserID::Gender::Age::Occupation::Zip-code
所有的人口统计信息都是由用户自愿提供的
未检查准确性。只有提供了一些统计数据的用户
信息包括在这个数据集中。
-“M”表示男性,“F”表示女性
—年龄可以从以下范围中选择:
-
1:“18岁以下”
-
18:“18 - 24”
-
25:“25至34岁”
-
35:“35-44”
-
45:“45-49”
-
50:“50 - 55”
56 * 56:“+”
-从下列选择中选择职业:
-
0:“其他”或未指定
-
1:“学术/教育家”
-
2:“艺术家”
-
3:“文书/管理”
-
4:“大学生/研究生”
-
5:“客服”
-
6:“医生/保健”
-
7:“行政/管理”
-
8:“农民”
-
9:“家庭主妇”
-
10:“K-12学生”
-
11:“律师”
-
12:“程序员”
-
13:“退休”
-
14:“销售/营销”
-
15:“科学家”
-
16:“自雇”
-
17:“技术员/工程师”
-
18:“商人/工匠”
-
19:“失业”
-
20:“作家”
电影文件描述
================================================================================
电影信息在“movies.dat”文件中,如下所示
格式:
MovieID::标题::流派
-标题与IMDB提供的标题相同(包括
年的版本)
-类型是管道分隔的,从以下类型中选择:
*行动
*冒险
*动画
*儿童
*喜剧
*犯罪
*纪录片
*戏剧
*幻想
*黑色
*恐怖
*音乐
*神秘
*浪漫
*科幻
*惊悚片
*战争
*西方
-一些MovieIDs不对应的电影,由于意外的复制
条目和/或测试条目
-电影大多是手工输入的,所以可能存在错误和不一致
这个数据集来源于GroupLens,包含电影评级、用户信息和电影详细信息。评级文件‘ratings.dat’有用户ID、电影ID、评级和时间戳。用户至少有20个评级,时间戳以秒为单位。用户文件‘users.dat’提供了性别、年龄、职业等人口统计信息。电影文件‘movies.dat’包含电影ID、标题和流派。该数据集适用于推荐系统、用户行为分析和电影偏好研究。
3620

被折叠的 条评论
为什么被折叠?



