数据处理
用户数据处理
用户数据一行
第一条数据是: 1::F::1::10::48067
- 首先,读取用户信息文件中的数据:
- 接下来把用户数据的字符串类型的数据转成数字类型,并存储到字典中,实现如下:
- 代码如下:
# 解压数据集
!unzip -o -q -d ~/work/ ~/data/data19736/ml-1m.zip
import numpy as np
def get_usr_info(path):
# 性别转换函数,M-0, F-1
def gender2num(gender):
return 1 if gender == 'F' else 0
# 打开文件,读取所有行到data中
with open(path, 'r') as f:
data = f.readlines()
# 建立用户信息的字典
use_info = {}
max_usr_id = 0
#按行索引数据
for item in data:
# 去除每一行中和数据无关的部分
item = item.strip().split("::")
usr_id = item[0]
# 将字符数据转成数字并保存在字典中
use_info[usr_id] = {'usr_id': int(usr_id),
'gender': gender2num(item[1]),
'age': int(item[2]),
'job': int(item[3])}
max_usr_id = max

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



