使用KNN预测电影评分-python3

最新推荐文章于 2025-11-26 15:40:52 发布

原创

最新推荐文章于 2025-11-26 15:40:52 发布 · 569 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #数据挖掘

文章目录

0. 理论
1.用KNN预测电影评分
2. 参考资料

0. 理论

在散点图上找出k个最近邻居，让他们投票确定分类，类别判定为离它最近的k个观察值中所占比例最大的分类。

1.用KNN预测电影评分

import pandas as pd
import numpy as np
# 读取电影评分数据
r_cols = ['user_id', 'movie_id', 'rating']
ratings = pd.read_csv('E:/python/python数据科学与机器学习/《Python数据科学与机器学习：从入门到实践》源代码/ml-100k/u.data', sep='\t', names=r_cols, usecols=range(3))
ratings.head()

	user_id	movie_id	rating
0	0	50	5
1	0	172	5
2	0	133	1
3	196	242	3
4	186	302	3

# 将movie_id分组汇总，求每个movie_id的评价数量和打分均值

movieProperties = ratings.groupby('movie_id')['rating'].agg(['size', 'mean']).reset_index()
movieProperties.head()

	movie_id	size	mean
0	1	452	3.878319
1	2	131	3.206107
2	3	90	3.033333
3	4	209	3.550239
4	5	86	3.302326

# 将评价数量标准化, 范围在[0, 1]
movieProperties['size'] = (mov

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

闲庭信步的空间

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 3.0 - 7.LR 多分类实现影评预测电影评分与指标评测

BITDDD小栈

11-28

1226

Spark 3.0 ML 通过 LR 多分类实现影评预测电影评分。

机器学习之Python使用KNN算法进行电影类型预测

qq_46556714的博客

03-25

3233

1. 使用KNN进行电影类型预测：给定训练样本集合如下：

参与评论您还未登录，请先登录后发表或查看评论

python对电影进行预测评分_推荐系统—影视评分预测

weixin_28881575的博客

02-10

4116

本文根据Andrew Ng的 Machine Learning 的课写就。======================================= 一、预测电影评分 ==========================================全文以“预测电影评分”例子展开r(i,j)=0则表明user_j没有对movie_i 没有评分，推荐系统 ...

华中科技大学源码和实验报告基于《MovieLens电影评分数据集》使用各种机器学习方法预测电影评分，找出最佳的机器学习算法.zip

09-13

华中科技大学源码和实验报告基于《MovieLens电影评分数据集》使用各种机器学习方法《预测电影评分》，找出最佳的机器学习算法.zip

python大数据分析电影评分与时长等等

m0_59054762的博客

04-27

1809

链接：https://pan.baidu.com/s/1EvuEnVhSAUghEkF5rckMoA?将测试集真实值与模型预测值用折线图的形式表现出来。可观察到有15条左右的预测评分接近真实值。画图预测接下来25条真实评分与预测评分。计算pearsonr系数判断相关程度。利用kmeans时长与分布情况。二.多元回归模型分析播放量。画图分析电影类型占比情况。记录相关电影类型数目。

weixin_39544333的博客

12-09

1121

协同过滤(collaborative filtering )能自行学习所要使用的特征如我们有某一个数据集，我们并不知道特征的值是多少，我们有一些用户对电影的评分，但是我们并不知道每部电影的特征(即每部电影到底有多少浪漫成份，有多少动作成份)假设我们通过采访用户得到每个用户的喜好，如上图中的Alice喜欢爱情电影，不喜欢动作电影，则我们将θ(1)设为[0,5,0],如此设置θ(2),θ(3),θ(4...

python knn模型_使用Python训练KNN模型并进行分类

weixin_39955142的博客

12-03

2658

K临近分类算法是数据挖掘中较为简单的一种分类方法，通过计算不同数据点间的距离对数据进行分类，并对新的数据进行分类预测。我们在之前的文章《K邻近(KNN)分类和预测算法的原理及实现》和《协同过滤推荐算法的原理及实现》两篇文章中都详细介绍过。本篇文章将介绍在python中使用机器学习库sklearn建立K临近模型(k-NearestNeighbor)的过程并使用模型对数据进行预测。准备工作首先是开始前...

使用PySpark的基于项目和用户的KNN推荐算法_Python_Perl_下载.zip

04-23

使用训练好的模型，可以预测用户对未评分项目的评分。为了评估推荐效果，可使用RMSE（均方根误差）、MAE（平均绝对误差）或Precision@N等指标。在PySpark中，可以使用`pyspark.mllib.evaluation....

基于KNN的电影评分预测的环境搭建

06-25

### 搭建基于KNN算法的电影评分预测开发环境搭建基于K近邻（K-Nearest Neighbors, KNN）算法实现电影评分预测的开发环境需要以下关键步骤和工具。以下是详细的说明： #### 1. 环境准备在开始之前，确保安装了...

基于Movielens的推荐系统—评分预测 (Python3)

05-11

压缩文件中包含一下列表： 1，movielens 公开实验数据集(推荐系统研究经常用到~) 2，模拟预测评分的python代码（python3.x）希望对大家学习有所帮助。有问题可以邮箱联系。

推荐系统实战（协同过滤算法实战：进行电影评分预测）

weixin_45636780的博客

11-28

2273

协同过滤电影评分推荐代码实战

电影评分预测系统分析

liuziyuan333183的博客

08-03

7980

一、数据获取（一）数据源地址：在kaggle官网获取电影评分的数据，官方网址为：https://www.kaggle.com/rounakbanik/the-movies-dataset 用Google打开，因为需要注册和下载，网页如下图所示： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ab2Bgx4L-1596448565451)(138E684BBA5240568AE3217C4CD1F0E0)] 网页上有对数据的说明（二）遇到的问题点击最右侧的下载，需要注册

weixin_30527423的博客

08-24

968

如何对电影进行打分:根据用户向量与电影向量的内积我们假设每部电影有两个features,x1与x2。x1表示这部电影属于爱情片的程度，x2表示这部电影是动作片的程度，如Romance forever里面x1为1.0（说明电影大部分为爱情），x2=0.01(说明里面有一点动作场面)。还是像以前一样加上一个额外的截距特征变量x0=1，这样第一部电影（love at last）表示为x(1)...

基于python的knn算法简单预测模型

dawjdnanda的博客

07-24

3745

knn核心：knn算法的核心思想主要是通过海量数据集对模型进行训练，通过比较预测输入与训练集的输入”距离差“来输出预测结果，简单来说就是哪个训练数据和预测输入更接近就选择哪个。基本工作流程：收集数据集（采用数组之类）数据拆分（输入，输出，切片 data[:,0] data[:,-1]）做距离排序（一维，二维，n维，欧拉公式，归一化算法等）统计最邻近的数据预测结果label 模型评价：...

基于多种机器学习的豆瓣电影评分预测与多维度可视化【可加系统】

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

07-25

1922

在本研究中，我们采用Python编程语言，利用爬虫技术实时获取豆瓣电影最新数据。通过分析豆瓣网站的结构，我们设计了一套有效的策略来爬取电影相关的JSON格式数据。为减少对服务器的频繁请求，我们实施了基于正态分布的延迟策略。数据采集后，使用Python中的Pandas库进行初步处理，将无序信息转换为结构化数据，包括处理空值、字符串格式化和字段扩展。然后，我们将整理好的数据存储到MySQL数据库中，进行深入的数据挖掘。通过分析不同数据维度，我们深入探讨了电影流行趋势和观众喜好等多个方面。

头歌--理解机器学习基本概念：从电影评分预测讲起

2301_76928636的博客

05-24

3789

Python自动化测试框架开发