
数据分析
文章平均质量分 55
叶柖
试图会写文章
展开
-
【数据分析】用户价值分析
RFM模型是衡星客户价值和客户创利能力的重要工具和手段。通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描该客户的价值状况。●R:最近一次消费时间(最近一次消费到参考时间的间隔)●F:消费的频次●M:消费的金额(总消费金额)数据格式df.shape(541909, 8)df.info()统计缺失率df.apply(lambda x:sum(x.isnull()).len(x),axis=0)...原创 2021-09-07 00:12:37 · 1726 阅读 · 1 评论 -
【数据分析】PM2.5 Data of Five Chinese Cities
Measurements for Shenyang, Chengdu, Beijing, Guangzhou, and Shanghai数据来源:https://www.kaggle.com/uciml/pm25-data-for-five-chinese-cities北京PM2.5随时间变化情况数据列The time period for this data is between Jan 1st, 2010 to Dec 31st, 2015. Missing data are denoted原创 2021-09-04 23:23:15 · 743 阅读 · 0 评论 -
【数据分析】goodbooks-10k
Ten thousand books, one million ratings. Also books marked to read, and tags.数据来源:https://www.kaggle.com/zygmunt/goodbooks-10k统计图书出版年份与数量及评分的关系会用到book_id original_publication_year average_ratingimport pandas as pdfrom matplotlib import pyplot as plt原创 2021-09-03 15:16:31 · 959 阅读 · 0 评论 -
【数据分析】Starbucks Locations Worldwide
数据来源:https://www.kaggle.com/starbucks/store-locations/data原创 2021-09-02 15:22:47 · 510 阅读 · 0 评论 -
【数据分析】IMDB data from 2006 to 2016
数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data数据列名1.电影时长分布import pandas as pdfrom matplotlib import pyplot as pltfile_path = './IMDB-Movie-Data.csv'df = pd.read_csv(file_path)time_data = df['Runtime (Minutes)'].valuesmax_time = time_da原创 2021-09-01 22:55:26 · 358 阅读 · 0 评论 -
【数据分析】英国YouTube视频统计和评论趋势
数据来源:https://www.kaggle.com/datasnaek/youtube1.视频点赞数与评论数的关系刚开始使用np.loadtxt()处理数据出错Wrong number of columns at line %d原因1:使用,作分隔符,数据中,产生干扰,将,替换为、或者其他字符原因2:comments默认为#,之后的字符默认都被注释掉,将comments设置为None之后还是有其他行报错改为用np.genfromtxt(),可以处理缺失数据等信息(如果知道其他报错的原因还请各原创 2021-09-01 16:26:15 · 741 阅读 · 0 评论