kaggle项目 电影推荐引擎 复现记录01

参考:Film recommendation engine

把notebook和数据集都下载下来。

我遇到了很多报错。今天只是尝试运行了一遍,把报错都解决了。之后的博客再详细解释代码。

零、最终效果

这个项目主要训练了两种,一种是基于内容,一种是基于流行程度,进行推荐。这个只是推荐出了电影名字,没有配置网页,配置网页推荐看尚硅谷的视频,之后我做那个项目也会发笔记。

 

一、安装包问题

pandas报DataFrame object has no attribute 'as_matrix'解决办法-优快云博客

  1. 安装包问题。建议挂v。注意是否在对应的虚拟环境下安装包。安装前先激活对应环境。
  2. 报错:AttributeError: module 'pandas' has no attribute 'np'。 加入Import numpy as np, 然后将那个pd.np 修改成np 去掉pd。
  3.  

### 如何复现 Kaggle 项目 要成功复现一个 Kaggle 项目,需要从多个方面着手准备,包括但不限于数据管理、代码版本控制以及依赖项配置。以下是详细的指南: #### 数据管理 为了确保实验的可复现性,需妥善保存原始数据集及其任何预处理后的中间产物。可以利用云存储服务或者 Git LFS 来追踪大文件的变化情况[^1]。 #### 代码版本控制 采用Git作为主要的版本控制系统来跟踪所有的更改历史是非常重要的。每次提交都应附带清晰的信息描述所做的修改内容。另外,也可以考虑使用Docker容器化技术封装运行环境,从而减少因不同开发环境中存在的差异而导致的结果不一致问题[^2]。 #### 环境配置与依赖管理 对于 Python 生态圈内的项目来说,Conda 和 Virtualenv 是两种常用的虚拟环境解决方案;它们可以帮助开发者精确指定所需的库版本号,避免由于第三方包升级而引发潜在冲突的风险。与此同时,借助 requirements.txt 文件记录当前安装的所有软件包列表也是一种简单有效的方法[^3]。 #### 实例演示 - Titanic生存预测分析 下面给出一段基于 Scikit-Learn 的逻辑回归模型训练过程的例子: ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # 加载数据集 data = pd.read_csv('titanic.csv') # 特征工程 (此处仅为简化示例) X = data[['Age', 'Fare']].fillna(0).values y = data['Survived'].values # 划分训练集测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 构建并拟合模型 model = LogisticRegression() model.fit(X_train, y_train) # 预测及评估性能 predictions = model.predict(X_test) print(f'Accuracy: {accuracy_score(y_test, predictions)}') ``` 此脚本展示了如何加载 CSV 格式的输入资料、执行基本的数据清理操作、分割样本集合用于验证目的最后计算分类准确性指标得分[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值