数据分析
weixin_44023916
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Python Pandas】关于DataFrame行转列,转字典的尝试与记录(有代码和结果展示)
想要实现的数据处理是画出如下表格中,每个城市中的不同店铺随时间变化的支出曲线。数据预处理首先进行所有操作之前要进行数据预处理,对于城市和店铺这两列来说,它们只要不为空即可,处理的方式为:import pandas as pddf = pd.read_csv('test.csv')df = df[df["城市"].notna()]df = df[df["店铺"].notna()]而对于最重要的两列数据时间和支出来说,需要筛选符合他们格式的数据,其他的一律视为记录错误剃掉,比如说支出这一列必须原创 2021-12-23 11:21:26 · 1635 阅读 · 0 评论 -
基于RFM的精细化用户管理
基于订单交易的价值模型更加适用于销售型公司的运营需求。针对交易数据分析的常用模型是RFM模型。使用的库包括time、numpy和pandas。在实现RFM组合时,我们使用sklearn的随机森林库来计算RFM的权重,在结果展示的时候主要使用Excel的可视化图表方式。读取数据常用的python库有:pandas:数据处理numpy:数据处理sklearn:模型训练sheet_name = ['2015','2016','2017','2018','会员等级']sheet_datas = [原创 2021-08-30 00:15:07 · 198 阅读 · 0 评论 -
会员数据化运营-task01
一、目的进行数据化运营主要有两个目的,一是会员营销,二是会员关怀,会员营销有助于销售额或者销售量的提升,而会员关怀有助于预防客户流失。二、指标和模型会员数据化运营的关键指标包括会员整体指标、营销指标、活跃度指标、价值度指标、终生价值指标和异动指标。会员整体指标又称会员链路指标,意思是指会员在业务整体链路转化的显现指标。主要用于优化会员转化链路,结合埋点数据发现会员在真实场景中遇到的问题。进而优化会员路径和实际转化链路,增加会员的最终转化率。营销指标主要包括涉及营销的一些指标,包括营销成本和营原创 2021-08-22 19:19:09 · 294 阅读 · 0 评论 -
动手学数据分析-task05
模型建立和评估前面做的都是对数据进行预处理,数据分析中最重要的一步是用处理过的数据进行建模,然后得到我们想要的结果,比如说预测或者是其他。模型建立模型建立这一步,常用的python库有:pandas:数据处理numpy:数据处理matplotlib:数据可视化seaborn:数据可视化image:数据可视化首先模型的输入是清洗过后的数据,它在原始训练数据的基础上,对原始数据进行了筛选,避免了变量重复,并且对其中的某些变量进行了扩展,比如说pd.get_dummies()处理。输入数据对原创 2021-07-23 00:00:32 · 215 阅读 · 0 评论 -
动手学数据分析-task04
数据重构数据可视化可以清晰的展现出数据特征,更为直观且清晰的表示出我们的结果,在python中通常导入matplotlib库来实现数据可视化。数据合并result_up = pd.concat([df_left_up,df_right_up],axis = 1)result_down = pd.concat([df_left_down,df_right_down],axis = 1)result = pd.concat([result_up,result_down],axis = 0)res原创 2021-07-20 00:08:05 · 293 阅读 · 2 评论 -
动手学数据分析-task03
数据重构可以完成数据合并的方法有pd.concat,join,append等。数据合并result_up = pd.concat([df_left_up,df_right_up],axis = 1)result_down = pd.concat([df_left_down,df_right_down],axis = 1)result = pd.concat([result_up,result_down],axis = 0)result1 = df_left_up.join(df_right_原创 2021-07-18 00:16:15 · 211 阅读 · 0 评论 -
动手学数据分析-task02
一、数据清洗及特征处理一般情况下,获取的数据中会存在一些NAN值,关于None和NAN的区别如下:None能够直接被导入数据库作为空值处理, 包含NaN的数据导入时会报错。numpy和pandas的很多函数能处理NaN,但是如果遇到None就会报错。None和NaN都不能被pandas的groupby函数处理,包含None或者NaN的组都会被忽略。为避免其影响到后续的数据分析,需要提前对它进行处理:缺失值观察与处理df[ ] : 只取某列的值,是键值, 返回Series类型df[[ ]]原创 2021-07-15 23:33:39 · 133 阅读 · 0 评论 -
动手学数据分析-task01
一、数据载入及初步观察读取数据是进行数据分析的第一步,pandas中通常使用read_csv来进行数据读取:直接读取train_data = pd.read_csv('./train.csv')逐块读取train_data = pd.read_csv('./train.csv', chunksize=5)修改列名train_data.columns = ['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信原创 2021-07-13 23:33:00 · 222 阅读 · 0 评论
分享