
数据分析
weixin_43576422
这个作者很懒,什么都没留下…
展开
-
特征工程——特征选择(Feature Selection),特征关联
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。可参考这篇文章:结合Scikit-learn介绍几种常用的特征选择方法常用方法分类Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。 (去掉取值变化小的特征 Removing原创 2020-08-09 20:01:51 · 4510 阅读 · 0 评论 -
三分钟理解Python—— lambda
这篇主要是复习一下进入标题,lambda是什么?为什么要使用lambda?lambda表达式是一种匿名函数,对应python中的自定义函数def。定义func函数,计算给定数x的平方def func(x):return x*x等价于func = lambda x: x*x可以看到,lambda只不过是定义函数的一种高级写法,lambda简化了函数定义的书写形式。代码更为简洁。对于有些函数我们只用一次的,用lambda就十分友好,连函数名都没有。lambda与map(), filte原创 2020-08-09 21:47:44 · 448 阅读 · 0 评论 -
pandas 使用小技巧
最近有用pandas制作报表和数据分析的需求,在此记录下一些小技巧:1、加载excel文件pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None,原创 2020-09-21 16:40:27 · 471 阅读 · 0 评论 -
Hotel booking demand 酒店预订需求分析
数据集下载地址:https://www.kaggle.com/jessemostipak/hotel-booking-demand该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。适用场景:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。数据量:32列共12W数据量。可以定义的问题:1)基本情况:城市酒店和假日酒店预订需求和入住率比较;2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;3)原创 2020-08-26 23:23:11 · 3385 阅读 · 0 评论 -
用Excel做一次数据分析(二)——一次简单的分析
接上一篇:用Excel做一次数据分析(一)——爬取前程无忧(51job)的招聘信息得到了数据后,接下来可以开始数据清洗和分析的工作了:总体步骤:数据获取——这里用python爬取前程无忧的招聘信息;明确分析目的——你拿这数据要得到什么信息,解决什么问题;观察数据——各个数据字段的含义,中英文释义;数据清洗——无效值、缺失值、重复值处理,数据结构是否一致等;分析过程——围绕目的展开分析;制作可视化——做图表做可视化报告一、明确目的数据分析的大忌是不知道分析的方向和目的,拿着一堆数据不知所措原创 2020-08-13 21:31:25 · 676 阅读 · 0 评论 -
用Excel做一次数据分析(一)——爬取前程无忧(51job)的招聘信息
前言本文分为两步:数据的获取 (python爬虫,以广州,数据分析师为例)数据分析(这里先不用python,而是excel)总体步骤:数据获取——这里用python爬取前程无忧的招聘信息;明确分析目的——你拿这数据要得到什么信息,解决什么问题;观察数据——各个数据字段的含义,中英文释义;数据清洗——无效值、缺失值、重复值处理,数据结构是否一致等;分析过程——围绕目的展开分析;制作可视化——做图表做可视化报告。爬取数据网址首页:https://www.51job.com/搜索后原创 2020-08-12 15:49:00 · 1574 阅读 · 0 评论 -
数据分析案例——航空公司客户价值分析
特征构造原始数据包含四十多个特征,如何利用这些特征?由于特征数较多,我们并不需要利用上所有的特征。1、RFM模型本项目的目标是客户价值分析,即通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的模型是RFM模型。R(Recency)指的是最近一次消费时间与截止时间(采集数据)的间隔。F(Frequency)指顾客在某段时间内所消费的次数。M(Monetary)指顾客在某段时间内所消费的金额。2、RFM模型结果解读RFM模型包括三个特征,使用三维坐标系进行展示,如图所示。X原创 2020-07-18 17:49:58 · 5292 阅读 · 1 评论