- 博客(35)
- 收藏
- 关注
原创 数据降维 | 奇异值分解(SVD) 、推荐系统、图像压缩
01 PCA.改在上一篇文章中,我们学习并实践了一种主流的数据降维算法——主成分分析(PCA)。我们再来回顾一下PCA的优缺点:优点:降低数据复杂性,识别最重要的多个特征缺点:PCA需要将所有数据集放入内存,若数据集较大,内存处理效率低,此时需要使用其他方法来寻找特征值基于PCA算法在处理大数据集时内存处理效率较低的缺点,出现了一种更加高效的降维算法——奇异值分解(SVD),本文简...
2019-04-14 15:57:50
1432
原创 数据降维 | 主成分分析(PCA)
01 数据降维数据分析中,我们常常面对较大的数据集,这里的“大”,一是指样本量大(如千万量级),二是指高维度(如几百个维度)。因此在正式分析这些大数据前,我们需要对它们做预处理,从而缩减数据维度,提升处理效率和训练效果。数据降维就是一种数据预处理技术,常用的降维技术如下:主成分分析 PCA因子分析 Factor Analysis独立成分分析 ICA本文介绍并实践了一种常用的数...
2019-04-14 10:17:54
1832
原创 FP-Growth|高效挖掘频繁项集
01 搜索引擎如何联想的?在使用搜索引擎时,你应该会发现一个现象:当我们在搜索框输入一个字符时,它就会帮你联想补全后面的搜索内容。比如,你想搜索“西瓜”,当你输入“西”时,搜索引擎会帮你联想出“西部、西瓜、西南地区”等等。这大大提高了我们的搜索效率,你有没有疑惑过,这是如何实现的呢?今天我们要学习的这个算法(FP-Growth)可以解答这个疑惑。FP-Growth算法是一种比Aprio...
2019-02-28 17:05:37
1160
原创 Apriori | 挖掘关联规则
01 啤酒与尿布好久没写代码了,脑子快生锈了,今天我们来实操一个比较有意思的算法——Apriori算法。Apriori算法是一种用于挖掘数据集内部关联规则的算法,“apriori”在拉丁语中翻译为“来自以前”,听意思你应该就能猜到了,这个算法是用先验知识来预测数据的关联规则的。说到关联规则,有一个很有名的案例——啤酒与尿布。说,美国一家连锁店发现很多男性会在周四购买尿布和啤酒,这两种看似不...
2019-02-14 14:17:24
802
原创 聚类 | KMeans理论与算法实现
01 物以类聚经过半年的不懈努力,我们已经学习并实践了经典的分类算法和经典的回归算法,下面我们开始学习经典的聚类算法(兴奋~~~)目前打算对三种聚类算法进行学习和代码实操(俗称“造轮子”):KMeansAprioriFP-Growth今天我们学习并实践KMeans聚类算法,分成以下几个部分,跟上节奏燥起来!KMeans算法理论和代码实现改进,BiKMeans算法理论和...
2018-12-11 19:17:58
743
原创 树回归|理论与算法实现
在上一篇文章中,我们比较全面地学习了线性回归的原理是实现,今天我们还是留在回归板块,针对树回归进行学习和实践。01 树回归原理相比于线性回归,树回归更适合对复杂、非线性的数据进行回归建模。原理回想一下决策树,树回归的原理就是决策树(人家都叫”树“回归了……),在决策树的学习中,有三种算法,ID3, C4.5, CART,前两种算法只能处理离散型数据,因此只能用于回归,而CART算法由于采...
2018-11-05 19:01:40
478
原创 常见线性回归|理论与算法实现
01 分类 v.s. 回归之前我们学习了很多分类方法,在机器学习中,还有一种任务叫回归,回归和分类其实挺像的,都是对样本预测一个值,区别在于,分类:输出为离散值回归:输出为连续值今天我们学习一波线性回归的理论和算法,不要小看线性回归,其实很多商业模型都少不了线性回归的功劳,把线性回归用到极致你也是大神。简单来说,线性回归就是在已知x,y的情况下,求解y=wx的回归系数的过程。0...
2018-10-28 15:13:55
955
原创 AdaBoost | 算法实现
在这篇文章中,我们一起学习了AdaBoost算法的原理,今天我们在python3的环境下,根据原理写一段代码来实现AdaBoost算法。01 构造单层决策树逻辑:遍历数据集的每个特征:遍历特征的每个步长:遍历步长的每个阈值对比方式(less than/greater than):计算每次迭代的weightedError认为weightedError最小的点(特...
2018-10-21 14:54:31
431
原创 统计学习方法|AdaBoost
01 起在之前的文章中,我们学习了几种经典的分类算法:KNN,Naive Bayes,Decision Tree,Logistic Regression,SVM。接下来我们学习一种方法来提升分类效果,这种方法的核心思想就是:三个臭皮匠,顶个诸葛亮。我们先从集成方法讲起,简单介绍Bagging和Boosting,然后着重介绍提升方法(Boosting),然后给出一种常用的提升方法Adapt ...
2018-10-07 17:41:17
457
原创 Python | 成都地区大数据人才市场数据分析(节选)
01 起大数据行业持续升温,越来越多的人才涌进这个行业。想知道这个行业需要什么样的人才么?大数据的问题就交给大数据去完成吧~~我们按特定的职位名称,爬取了拉勾网上成都地区所有大数据相关职位的招聘信息,并对这份数据做了多维度分析,得到了很多有价值的信息,构成了一份大数据人才市场分析报告。本文节选报告第四章内容,对5类大数据相关职位的职位要求进行文本分析,给出人才市场上对这5类职位的能力(...
2018-09-23 01:01:01
972
原创 Python | 数据可视化汇总
01 提纲不断总结是学习进步的阶梯。前阵子针对python数据可视化进行了一波学习和实操,是时候总结一下数据可视化的方法和代码了,一起来复习吧!想要说明的一点是,方法千千万,是学习不完的,怎么办呢?最近听到一个词:用以致学。就是以目的为导向去学习,学到之后再进行总结,而不是盲目地学。本次数据可视化复习提纲如下:散点图箱线图折线图条形图、直方图饼图多图主要使用到mat...
2018-09-23 00:57:36
1451
原创 NLP | 文本特征向量化方法
01 起在之前的文章中,我们学习了一种分类方法:朴素贝叶斯,朴素贝叶斯特别适合文本分类,比如:根据邮件内容,判断哪些是垃圾邮件根据新闻内容,判断新闻情感是正面、负面还是中立……如果想要使用朴素贝叶斯模型去给文本数据分类,就必须对文本数据进行处理。怎么处理呢?一般是这样的:对文本分词(作为特征),比如把这句话“我是天才”分词为“我”“是”“天才”(这里面的学问就更多了,本...
2018-09-23 00:53:16
10403
3
原创 支持向量机(SVM) | 核技巧于SMO算法的实现
01 核技巧关于支持向量机,我们有这样的共识:支持向量机是一种分类器,之所以叫“机”是因为它会产生一个二值决策结果,是一种决策机;支持向量机的泛化误差较低,即,有良好的学习能力,且学到的模型具有很好的推广性,因此被认为是监督学习中最好的定式算法;支持向量机通过求解一个二次优化问题来最大化分类间隔,在过去,训练SVM常采用非常复杂且低效的二次规划求解方法;1998年,Platt提出SMO...
2018-09-23 00:39:10
720
原创 leetcode | 初级算法-数组
01 起最近“不务正业地”刷了一波leetcode上的算法题,初级算法已经刷完50%,战况如下,刷题固然爽快,但及时总结才是进步之道,下面就数组部分的题目进行回顾和总结。注意,刷题使用的语言是Python3,"数组"这个数据结构在Python中对应的就是"列表"list。初级算法中数组类题目共11道,如下,我们一道一道来总结02 解题下面我们逐个击破数组部分的11道题。2.1...
2018-09-22 11:21:35
401
原创 决策树(Decision Tree) | 绘制决策树
01 起在这篇文章中,我们讲解了如何训练决策树,然后我们得到了一个字典嵌套格式的决策树结果,这个结果不太直观,不能一眼看着这颗“树”的形状、分支、属性值等,怎么办呢?本文就上文得到的决策树,给出决策树绘制函数,让我们对我们训练出的决策树一目了然。在绘制决策树之后,我们会给出决策树的使用方法:如何利用训练好的决策树,预测训练数据的类别?提示:不论是绘制还是使用决策树,中心思想都是递归。...
2018-09-22 11:17:19
19043
1
原创 决策树(Decision Tree) | 算法实现
01 起决策树相关的理论知识,我们在这篇文章中有详细讲解。今天我们基于决策树原理,写一个函数来训练决策树吧。本文基于ID3算法构建决策树,此算法构建决策树的中心思想是:始终寻找信息增益最大的特征作为当前分支的最优特征信息增益,即:g(D,A)=H(D)-H(D|A)02 实现思路(ID3)利用训练数据,训练决策树,主要思路如下,共8个步骤,重点在于递归:自定义信息熵计算函数...
2018-09-22 11:08:32
4545
2
原创 支持向量机(SVM) | SMO算法实现
01 起在统计学习方法|SVM这篇文章中,我们学习了支持向量机的原理和理论上的算法实现,我们一起回忆一下,支持向量机可以处理三种类型的数据:线性可分支持向量机——求解策略,硬间隔最大化线性支持向量机——求解策略,软间隔最大化非线性支持向量机——求解策略,核技巧+软间隔最大化我们提出一个问题当数据量很大时,以上提出的算法求解复杂度呈指数上升,算法会变得十分低效,该怎么办呢?我...
2018-09-22 11:03:45
3416
4
原创 逻辑斯蒂回归(Logistic Regression) | 算法实现
01 起在这篇文章中,我们学习了逻辑斯谛回归模型的算法原理:统计学习方法|logistic回归今天我们基于算法原理,给出利用随机梯度上升算法求解逻辑斯蒂回归模型参数的过程。我们先来回顾一下逻辑斯蒂回归模型,logistic回归的目的是寻找一个非线性函数sigmoid函数的最佳拟合参数w, sigmoid(wx)=1/(1+exp(-wx)),找到最佳拟合参数w,使不同类别样本点的特征x...
2018-09-22 10:58:13
4678
1
原创 朴素贝叶斯(Naive Bayes) | 算法实现
01 起大数据时代,我们的“隐私”早已不再是隐私,一个特别直接的证据是什么呢?我们的邮箱也好、手机也好,经常收到恼人的垃圾邮件、垃圾短信被这些东西烦的不行,怎么办呢?网上有很多垃圾邮件过滤软件,可以拿来直接用的,其中的原理是什么呢?今天我们自己造个轮子来过滤邮箱里的垃圾邮件吧!系好安全带,我要开车了!02 过滤原理垃圾邮件过滤的原理其实很简单:朴素贝叶斯(Naive Baye...
2018-09-22 10:53:14
1571
原创 K近邻(KNN) | 算法实现
01 KNN可以做点什么呢?在李航的《统计学习方法》中,详细讲解了一中分类算法:K近邻(K Nearest Neighbor),具体的算法过程和关键点可以参考这篇文章:统计学习方法 | k近邻法算法的理论基础有了,下一步就是自己动手去实现了。今天我们的文章就是利用python去实现KNN算法,利用这套算法可以做什么呢?比如,我们已经知道一组鸢尾花的花瓣、花萼长宽以及对应的鸢尾花品...
2018-09-22 10:47:37
21473
1
原创 统计学习方法|SVM
01 起在统计学习方法这个板块中,我们学习了多个分类算法,比如逻辑斯蒂回归,在逻辑斯蒂回归模型中,我们对数据集有预先的假设——数据集满足逻辑斯蒂分布。今天我们学习另外一种分类模型,这种分类模型对数据集没有做任何假设,它的适用性更广,当我们尚不明确数据分布特性时,使用这个模型分类可能更合适。这个模型叫SVM,中文名叫支持向量机,是一种经典而普适的分类模型。02 SVM简介&基本概...
2018-09-22 10:38:56
639
原创 统计学习方法|Logistic回归
01 逻辑斯谛分布logistic回归是一种经典的分类算法,模型形式如下(二分类),其中x服从逻辑斯谛分布:什么叫服从逻辑斯谛分布呢?直观点,分布函数和密度函数长这样:逻辑斯谛回归模型有什么特点呢?我们来看逻辑斯谛分布函数的形状,横轴范围在正负无穷之间,而纵轴范围在0~1之间,这个特征太有意思了!把纵轴看作概率,正好分布在0%~100%之间,横轴作为输入正好在正负无穷之间,可以...
2018-09-22 10:26:07
669
原创 统计学习方法 | 决策树
01 决策树定义之前我们学习了两种分类方法:K近邻(KNN)朴素贝叶斯(Naive Bayes)今天我们来学习另一种分类方法——决策树在开始学习之前,先提出一个问题:这三种分类方法的区别是什么呢?分别适用什么场景呢?好了,带着疑问,我们开始学习决策树~决策树是什么?它是一种基本的分类与回归的方法,可以认为是if-then规则的集合,决策树分类时,将某结点的实例强行分到条件概...
2018-09-22 10:20:16
552
原创 统计学习方法 | 朴素贝叶斯法
01 起之前我们学习了一种分类方法——K近邻法(KNN),今天我们再学习一种更常用的分类方法朴素贝叶斯法这里,我们先区分一下“分类”和“聚类”分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把新输入的数据映射到给定类别中的某一个类中。聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组(簇),并且对每一个这样的簇进...
2018-09-21 16:31:41
425
原创 统计学习方法 | k近邻法
01 起K近邻法(KNN)是一种基本的分类与回归方法分类这种需求,渗透到我们生活的方方面面:根据学生德智体美成绩,将学生分为几类根据一个县城的GDP、人口密度等数据,将全国的县城分为多个类别根据客户的信用、收入、生活习惯将客户分为多个类别……分类算法可以帮助我们完成这些繁琐的操作,并根据我们的要求不断修正分类结果。分类算法其实蛮多的,这里顺着书本顺序,详细讲解KNN算法,...
2018-09-21 16:26:31
1974
原创 Python|“大方”食客画像分析
01 起我们手里有一份餐厅统计的用餐信息,包括餐费、小费、性别、吸烟习惯、用餐时段、用餐人数等信息。下面让我们用这份数据练手python吧。本次练习主要围绕一下几点:groupby方法plot箱线图plot散点图来吧,让我们开始吧!目的:分析小费比例与其他因素的关系,出手最阔绰的人群长什么样?02 画像分析其实根据这份数据可以分析出很多好玩的东西,比如:餐费高低...
2018-09-21 16:17:53
1074
原创 KDD CUP 2018 | 北京监测站点空气质量可视化分析
起KDD CUP作为全球顶级数据挖掘竞赛,幸得师弟鼓励拉上本拖油瓶一起参赛~~5.31日比赛就结束了,这次的kdd cup作为我们的练习赛吧,本来早就要做这个可视化分析的,但是工作太忙,一直抽不出时间,抱歉了,战友们=。=明确目的kdd cup 2018的题目要求:给出北京、伦敦各空气监测站点2017-2018年每天每小时的空气质量监测数据,以及当时附近的环境质量数据,预测未来48小时...
2018-09-21 16:12:58
5186
1
原创 统计学习方法 | 感知机
01 起通过这篇文章我们了解了统计学习方法的概念和基本的三要素。还记得三要素么?模型、策略、算法这周我们进入正题,对各个统计学习方法按照三要素的结构进行学习,先从机器学习最原始的方法说起——感知机。稍微了解一下人工智能的发展历史,我们可以知道,感知机算法见证了人工智能领域的第一次低谷期,启发了后面的神经网络和支持向量机。虽然我们已经不再使用感知机算法求解复杂问题,但了解其思路对于...
2018-09-21 16:08:00
259
原创 统计学习方法 | 概论
01 起前段时间把Python的Pandas、Numpy、matplotlib、seaborn包拿来反复练习了一番,对于数据的观察、处理、清洗以及可视化有了一定的认识。随着练习的深入,一个问题在我心中逐渐形成:一份数据的价值,通过清洗、多维度可视化就完全可以被展现出来了么?还不够,还远远不够!于是我开始感受到知识储备的匮乏了。还好前面有老司机带路,于是我琢磨着从理论基础入手,结合...
2018-09-21 16:04:37
344
原创 Python | 共享单车需求分析
01 起手里有一份A市近两年来共享单车的租车数据,字段丰富,可挖掘的东西蛮多的,真是让人蠢蠢欲动~~那么今天我们就来挖一挖这份数据,看看是哪些因素影响着人们的租车需求。先给出数据各字段以及含义,先思考一下,如果是你,你会如何分析?02 数据清洗拿到任何数据,第一件事是思考数据价值,思考你分析这份数据的目的,然后呢。当然是数据的观察和清洗,不干净的数据分析出来的结果你信么?老套路...
2018-09-21 16:02:14
8236
7
原创 Python|泰坦尼克号幸存者画像
01 幸存者泰坦尼克号的沉没,是人为的悲剧,1800人罹难者近70%,让我们一起来看看泰坦尼克号的幸存者都有哪些特征吧。先给出分析框架一切的分析都建立在数据清洗之后幸存率的分析非常重要,下面将按性别、年龄、仓位、登船码头4个维度分别观察与幸存率的关系然后按照仓位+性别、仓位+年龄段、年龄段+性别3个二维组合维度观察与幸存率的关系最后按仓位+性别+年龄段这个三维组合维度观察与幸存率...
2018-09-21 16:00:33
1565
原创 转战优快云说明
原创之路之前一直在微信公众号和简书写作,微信公众号上有一些关于区块链、统计学、数据分析等方面的原创文章,简书上有一些Python、机器学习理论/算法实现方面的原创文章。在搜索相关技术问题时,时常搜索到优快云的文章,渐渐发现这个地方挺适合写技术文章的,于是决定技术方面的文章转战到优快云上,还请多多指教!写作时间线2017.3-2017.12 微信公众号,一周一篇原创2017.12-20...
2018-09-21 15:50:48
305
原创 Python | 销售记录可视化
01 起我们拿到一家公司的销售记录,共有1500条销售数据,现在我们对这张销售记录进行可视化分析吧,这是数据分析师的必经之路哦。内容提要:条形图:各公司交易额多图:各公司交易额、订单数饼图:各公司交易额占比TOP10总额散点图:各公司订单数-交易额分布直方图:单笔订单交易额分布情况那么我们开始吧!02 数据处理首先使用pd.read_excel读取数据,定义该数据表名...
2018-09-21 15:36:54
3722
原创 Python|美国婴儿姓名分析
01 起我们拿到一份1880-2016这136年间美国婴儿取名的数据(数据源在这里下载),数据总共有189万条,57.7M的大小,字段如下:下面我们使用python3来对该数据集进行分析,看看一百多年来,男孩女孩姓名趋势。首先读取1880-2016年的取名数据,由于每年的数据是一个独立的dataframe,因此我们使用concat()方法将各年数据整合为一个dataframeimport...
2018-09-21 15:14:27
3039
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人