movielens数据集（ml.zip）的读取问题

捻墨

已于 2023-05-30 19:49:50 修改

阅读量225

点赞数

文章标签：数据分析

于 2023-05-30 19:43:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43929090/article/details/130955290

版权

文章讲述了在Python中处理ZIP文件时遇到的问题，包括路径转换、字节模式和编码错误。作者提供了解决方案，如使用os.path.join调整路径，修改sep参数，以及在read_csv中指定正确的编码方式（ISO-8859-1）来读取数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import os
import zipfile
import pandas as pd
import numpy as np
DATASET = 'ml-1m'  
RAW_PATH = os.path.join('./', DATASET)
with zipfile.ZipFile(os.path.join(RAW_PATH, DATASET + '.zip')) as z:#已有名为ml-1m的zip文件
	with z.open(os.path.join(DATASET, 'movies.dat')) as f:
            data_df = pd.read_csv(f, sep=b'::', header=None, engine='python')#每行数据形为1::Toy Story (1995)::Animation|Children's|Comedy

最后两行代码有问题。

首先是KeyError: “There is no item named ‘ml-1m\\movies.dat’ in the archive”，可能是windows下路径得转换。解决：将open函数内替换为os.path.join(DATASET, ‘ratings.dat’).replace(‘\’,‘/’)。

然后是TypeError: cannot use a bytes pattern on a string-like object，解决：sep=‘::’，即不要b。

最后是UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe9 in position 3114: invalid continuation byte，解决：read_csv添加参数encoding=‘ISO-8859-1’ 。

博客等级

码龄7年

3
原创

2
点赞

27
收藏

0
粉丝

关注

私信

热门文章

上一篇：: 数组内是一个字典，怎么取出字典并且遍历字典呢？

最新评论

亚马逊数据集（Amazon Data）
捻墨: 没有打开过
亚马逊数据集（Amazon Data）
m0_67651871: 您好，2018版的有添加那个元数据比如meta_Appliances.json，但这个下载下来用一般的json打不开，是要做啥处理吗，您有打开过吗
movielens数据集（ml.zip）的读取问题
优快云-Ada助手: 恭喜您又写了一篇有关movielens数据集的博客，我认为您对这个数据集的理解已经非常深刻了。关于读取问题的解决，您是否考虑过尝试使用不同的工具或者库来读取这个数据集呢？比如说Pandas或者Numpy等。希望您能在未来的博客中分享更多好的解决方案，我们期待您的下一篇作品。优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
亚马逊数据集（Amazon Data）
qq_40909803: 太棒了2014版的可以用
亚马逊数据集（Amazon Data）
捻墨: 没有，我不做这个

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。