matlab python相关

基于Python pandas的用户评分数据深度分析

最新推荐文章于 2025-05-09 11:24:25 发布

原创最新推荐文章于 2025-05-09 11:24:25 发布 · 246 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了如何使用Python pandas库进行用户评分数据的深度分析，包括计算每列非0元素个数、找出评分最多的500个用户索引等关键步骤。通过示例代码展示了数据融合、聚合、过滤和透视表应用，提供了从原始数据到有价值洞察的完整流程。

计算,矩阵,每列非0的元素个数:count = sum(M ~=0);

矩阵评分最多的500个用户索引

ss=sum(X_aux~=0);

[c,pos]=sort(ss,'descend'); %%降序

python pandas

import pandas as pd
unames=['u_id','t_id','r','time']
ratings=pd.read_table('C:\Users\zhaojianfei\Desktop\Oliy\dataset\u.data',header=None,names=unames,engine='python')
unames=['u_id' ,'age' , 'gender' , 'occupation','zip']
users=pd.read_table('C:\Users\zhaojianfei\Desktop\Oliy\dataset\u.user',sep='|',header=None,names=unames,engine='python')
data=pd.merge(ratings,users)
ur_mean=data.pivot_table('r',index='u_id',columns='gender',aggfunc='mean')

users.head() ##显示前5行数据

pd.pivot_table(users,index=['gender','u_id']) #定义索引查看表数据

pd.pivot_table(users,index=["gender"],values=["age"],aggfunc=np.sum) #控制显示的索引和特定值,aggfunc功能函数，默认求均值？

##非数值（NaN）有点令人分心。如果想移除它们，我们可以使用“fill_value”将其设置为0。

ur_mean=data.pivot_table('r',index='u_id',columns='gender',aggfunc='mean',fill_value=0)

总和数据呢？“margins=True

users.query('gender == ["F"]')#查询函数