MovieLens数据集是一个关于推荐系统中常用的电影评分数据集,本文选取了其中的ml-1m数据集,如图所示:
1. 数据下载
在当前路径下新建data文件夹,并将数据集下载解压至此处。数据集下载的地址为:http://files.grouplens.org/datasets/movielens/ml-1m.zip
2. 文件说明
数据下载后会产生一个data文件夹和一个ml-1m子文件夹,子文件夹ml-1m中包含了四个文件:README、ratings.dat、movies.dat、users.dat,其中README文件是对该数据集的整体介 绍,内容如下:
2.1 概述
这些文件包含了6040名用户对大约3900部电影的1000209条评分记录
2.2 ratings.dat
该文件存放电影评分数据,格式为 UserID::MovieID::Rating::Timestamp
UserID 取值范围:1-6040
MovieID 取值范围:1-3952
Ratings 取值范围:1-5
Timestamp 表示格林威治时间1970年01月01日00时00分00秒(北京时间1970年01
月01日 08时00分00秒)起至现在的总毫秒数。
每个用户至少有20条评分记录
2.3 users.dat
该文件存放用户属性数据,格式为 UserID::Gender::Age::Occupation::Zip-code
Gender 用“M”表示男性,“F”表示女性
Age 各个取值对应不同的年龄区间
-
1: "Under 18"
18: "18-24"
25: "25-34"
35: "35-44"
45: "45-49"
50: "50-55"
56: "56+"
Occupation 各个取值对应不同的职业
-
0: "other" or not specified
1: "academic/educator"
2: "artist"
3: "clerical/admin"
4: "college/grad student"
5: "customer service"
6: "doctor/health care"
7: "executive/managerial" 8: "farmer"
9: "homemaker"
10: "K-12 student"
11: "lawyer"
12: "programmer"
13: "retired"
14: "sales/marketing"
15: "scientist"
16: "self-employed"
17: "technician/engineer" 18: "tradesman/craftsman" 19: "unemployed"
20: "writer"
该文件存放电影属性数据,格式为 MovieID::Title::Genres
Titles 电影标题
Genres 电影题裁,共18个取值
-
Action
Adventure
Animation
Children's
Comedy
Crime
Documentary
Drama