
Python
文章平均质量分 96
Sudden|nebbuS
数据分析师,中国科大硕士
https://github.com/Suddennebbus?tab=repositories
展开
-
Python|美国婴儿姓名分析
01 起我们拿到一份1880-2016这136年间美国婴儿取名的数据(数据源在这里下载),数据总共有189万条,57.7M的大小,字段如下:下面我们使用python3来对该数据集进行分析,看看一百多年来,男孩女孩姓名趋势。首先读取1880-2016年的取名数据,由于每年的数据是一个独立的dataframe,因此我们使用concat()方法将各年数据整合为一个dataframeimport...原创 2018-09-21 15:14:27 · 3049 阅读 · 2 评论 -
数据降维 | 主成分分析(PCA)
01 数据降维数据分析中,我们常常面对较大的数据集,这里的“大”,一是指样本量大(如千万量级),二是指高维度(如几百个维度)。因此在正式分析这些大数据前,我们需要对它们做预处理,从而缩减数据维度,提升处理效率和训练效果。数据降维就是一种数据预处理技术,常用的降维技术如下:主成分分析 PCA因子分析 Factor Analysis独立成分分析 ICA本文介绍并实践了一种常用的数...原创 2019-04-14 10:17:54 · 1839 阅读 · 0 评论 -
Apriori | 挖掘关联规则
01 啤酒与尿布好久没写代码了,脑子快生锈了,今天我们来实操一个比较有意思的算法——Apriori算法。Apriori算法是一种用于挖掘数据集内部关联规则的算法,“apriori”在拉丁语中翻译为“来自以前”,听意思你应该就能猜到了,这个算法是用先验知识来预测数据的关联规则的。说到关联规则,有一个很有名的案例——啤酒与尿布。说,美国一家连锁店发现很多男性会在周四购买尿布和啤酒,这两种看似不...原创 2019-02-14 14:17:24 · 804 阅读 · 0 评论 -
FP-Growth|高效挖掘频繁项集
01 搜索引擎如何联想的?在使用搜索引擎时,你应该会发现一个现象:当我们在搜索框输入一个字符时,它就会帮你联想补全后面的搜索内容。比如,你想搜索“西瓜”,当你输入“西”时,搜索引擎会帮你联想出“西部、西瓜、西南地区”等等。这大大提高了我们的搜索效率,你有没有疑惑过,这是如何实现的呢?今天我们要学习的这个算法(FP-Growth)可以解答这个疑惑。FP-Growth算法是一种比Aprio...原创 2019-02-28 17:05:37 · 1161 阅读 · 0 评论 -
Python | 成都地区大数据人才市场数据分析(节选)
01 起大数据行业持续升温,越来越多的人才涌进这个行业。想知道这个行业需要什么样的人才么?大数据的问题就交给大数据去完成吧~~我们按特定的职位名称,爬取了拉勾网上成都地区所有大数据相关职位的招聘信息,并对这份数据做了多维度分析,得到了很多有价值的信息,构成了一份大数据人才市场分析报告。本文节选报告第四章内容,对5类大数据相关职位的职位要求进行文本分析,给出人才市场上对这5类职位的能力(...原创 2018-09-23 01:01:01 · 974 阅读 · 0 评论 -
Python | 数据可视化汇总
01 提纲不断总结是学习进步的阶梯。前阵子针对python数据可视化进行了一波学习和实操,是时候总结一下数据可视化的方法和代码了,一起来复习吧!想要说明的一点是,方法千千万,是学习不完的,怎么办呢?最近听到一个词:用以致学。就是以目的为导向去学习,学到之后再进行总结,而不是盲目地学。本次数据可视化复习提纲如下:散点图箱线图折线图条形图、直方图饼图多图主要使用到mat...原创 2018-09-23 00:57:36 · 1452 阅读 · 0 评论 -
Python|“大方”食客画像分析
01 起我们手里有一份餐厅统计的用餐信息,包括餐费、小费、性别、吸烟习惯、用餐时段、用餐人数等信息。下面让我们用这份数据练手python吧。本次练习主要围绕一下几点:groupby方法plot箱线图plot散点图来吧,让我们开始吧!目的:分析小费比例与其他因素的关系,出手最阔绰的人群长什么样?02 画像分析其实根据这份数据可以分析出很多好玩的东西,比如:餐费高低...原创 2018-09-21 16:17:53 · 1074 阅读 · 0 评论 -
KDD CUP 2018 | 北京监测站点空气质量可视化分析
起KDD CUP作为全球顶级数据挖掘竞赛,幸得师弟鼓励拉上本拖油瓶一起参赛~~5.31日比赛就结束了,这次的kdd cup作为我们的练习赛吧,本来早就要做这个可视化分析的,但是工作太忙,一直抽不出时间,抱歉了,战友们=。=明确目的kdd cup 2018的题目要求:给出北京、伦敦各空气监测站点2017-2018年每天每小时的空气质量监测数据,以及当时附近的环境质量数据,预测未来48小时...原创 2018-09-21 16:12:58 · 5195 阅读 · 1 评论 -
Python | 共享单车需求分析
01 起手里有一份A市近两年来共享单车的租车数据,字段丰富,可挖掘的东西蛮多的,真是让人蠢蠢欲动~~那么今天我们就来挖一挖这份数据,看看是哪些因素影响着人们的租车需求。先给出数据各字段以及含义,先思考一下,如果是你,你会如何分析?02 数据清洗拿到任何数据,第一件事是思考数据价值,思考你分析这份数据的目的,然后呢。当然是数据的观察和清洗,不干净的数据分析出来的结果你信么?老套路...原创 2018-09-21 16:02:14 · 8244 阅读 · 7 评论 -
Python|泰坦尼克号幸存者画像
01 幸存者泰坦尼克号的沉没,是人为的悲剧,1800人罹难者近70%,让我们一起来看看泰坦尼克号的幸存者都有哪些特征吧。先给出分析框架一切的分析都建立在数据清洗之后幸存率的分析非常重要,下面将按性别、年龄、仓位、登船码头4个维度分别观察与幸存率的关系然后按照仓位+性别、仓位+年龄段、年龄段+性别3个二维组合维度观察与幸存率的关系最后按仓位+性别+年龄段这个三维组合维度观察与幸存率...原创 2018-09-21 16:00:33 · 1566 阅读 · 0 评论 -
Python | 销售记录可视化
01 起我们拿到一家公司的销售记录,共有1500条销售数据,现在我们对这张销售记录进行可视化分析吧,这是数据分析师的必经之路哦。内容提要:条形图:各公司交易额多图:各公司交易额、订单数饼图:各公司交易额占比TOP10总额散点图:各公司订单数-交易额分布直方图:单笔订单交易额分布情况那么我们开始吧!02 数据处理首先使用pd.read_excel读取数据,定义该数据表名...原创 2018-09-21 15:36:54 · 3727 阅读 · 0 评论 -
数据降维 | 奇异值分解(SVD) 、推荐系统、图像压缩
01 PCA.改在上一篇文章中,我们学习并实践了一种主流的数据降维算法——主成分分析(PCA)。我们再来回顾一下PCA的优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:PCA需要将所有数据集放入内存,若数据集较大,内存处理效率低,此时需要使用其他方法来寻找特征值基于PCA算法在处理大数据集时内存处理效率较低的缺点,出现了一种更加高效的降维算法——奇异值分解(SVD),本文简...原创 2019-04-14 15:57:50 · 1439 阅读 · 0 评论