
大数据
请叫我子鱼
这个作者很懒,什么都没留下…
展开
-
数据分析1 - 预习篇
数据分析实战.预习篇数据分析实战45讲开篇词 | 你为什么需要数据分析能力?MAS 方法学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验从“思维”到“工具”再到“实践”01丨数据分析全景图及修炼指南数据分析分成三个重要的组成部分数据采集数据挖掘数据可视化修炼指南我们只有把知识转化为自己的语言,它才真正变成了我们自己的东...原创 2019-06-06 15:25:26 · 386 阅读 · 0 评论 -
数据分析5 - 拓展篇
数据分析实战5.拓展篇42丨当我们谈深度学习的时候,我们都在谈什么?目标在这篇文章中,我们会通过以下几个方面了解深度学习:数据挖掘、机器学习和深度学习的区别是什么?这些概念都代表什么?我们通过深度学习让机器具备人的能力,甚至某些技能的水平超过人类,比如图像识别、下棋对弈等。那么深度学习的大脑是如何工作的?深度学习是基于神经网络构建的,都有哪些常用的网络模型?深度学习有三个重要...原创 2019-06-06 15:32:03 · 411 阅读 · 0 评论 -
数据分析4 - 实战篇
数据分析实战4.实战篇37丨数据采集实战:如何自动化运营微博?目标掌握 Selenium 自动化测试工具,以及元素定位的方法;学会编写微博自动化功能模块:加关注,写评论,发微博;对微博自动化做自我总结。Selenium 自动化测试工具当我们做 Web 自动化测试的时候,可以选用 Selenium 或者 Puppeteer 工具。我在第 10 篇的时候简单介绍过 Sele...原创 2019-06-06 15:31:28 · 547 阅读 · 0 评论 -
数据分析3 - 算法篇
数据分析实战3.算法篇分类算法:NB、C4.5、CART、SVM、KNN、Adaboost聚类算法:K-Means、EM关联分析:Apriori链接分析:PageRank17 丨决策树(上):要不要去打篮球?决策树来告诉你决策树学习通常包括三个步骤特征选择。选取最优特征来划分特征空间,用信息增益或者信息增益比来选择决策树的生成。ID3、C4.5、CART剪枝纯度...原创 2019-06-06 15:30:22 · 5060 阅读 · 0 评论 -
数据挖掘算法10 - PageRank
PageRankPageRank 的简化模型假设一共有 4 个网页 A、B、C、D。它们之间的链接信息如图所示:出链指的是链接出去的链接。入链指的是链接进来的链接。比如图中 A 有 2 个入链,3 个出链。简单来说,一个网页的影响力 = 所有入链集合的页面的加权影响力之和,用公式表示为:u 为待评估的页面,Bu 为页面 u 的入链集合。针对入链集合中的任意页面 v,它能给 u ...原创 2019-05-31 12:09:32 · 1143 阅读 · 0 评论 -
数据挖掘算法09 - Apriori
Apriori关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。所以说,关联规则挖掘是个非常有用的技术。知识点搞懂关联规则中的几个重要概念:支持度、置信度、提升度;Aprio...原创 2019-05-31 12:08:46 · 1482 阅读 · 0 评论 -
数据挖掘算法08 - EM
EMEM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法。例子分菜抛硬币EM 聚类三步骤你能从这个例子中看到三个主要的步骤:初始化参数、观察预期、重新估计。首先是先给每个碟子初始化一些菜量,然后再观察预期,这两个步骤实际上就是期望步骤(Expectation)。如果结果存在偏差就需要重新估计参数,这个就是最大化步骤(Maximi...原创 2019-05-30 17:23:58 · 365 阅读 · 0 评论 -
数据挖掘算法07 - K-Means
K-MeansK-Means 算法原理,来看下这三个问题。如何确定 K 类的中心点?其中包括了初始的设置,以及中间迭代过程中中心点的计算。在初始设置中,会进行 n_init 次的选择,然后选择初始中心点效果最好的为初始值。在每次分类更新后,你都需要重新确认每一类的中心点,一般采用均值的方式进行确认。如何将其他点划分到 K 类中?这里实际上是关于距离的定义,我们知道距离有多种定义的方式,在 K...原创 2019-05-30 17:22:38 · 400 阅读 · 0 评论 -
数据挖掘算法06 - Adaboost
Adaboost今天我们学习 AdaBoost 算法。在数据挖掘中,分类算法可以说是核心算法,其中 AdaBoost 算法与随机森林算法一样都属于分类算法中的集成算法。集成算法的两种模式集成的含义就是集思广益,博取众长,当我们做决定的时候,我们先听取多个专家的意见,再做决定。集成算法通常有两种方式,分别是投票选举(bagging)和再学习(boosting)。投票选举的场景类似把专家召集...原创 2019-05-27 13:20:57 · 431 阅读 · 0 评论 -
数据挖掘算法05 - KNN
KNNKNN 的英文叫 K-Nearest Neighbor,应该算是数据挖掘算法中最简单的一种。KNN 的工作原理***近朱者赤,近墨者黑***可以说是 KNN 的工作原理。整个计算过程分为三步:计算待分类物体与其他物体之间的距离;统计距离最近的 K 个邻居;对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。K 值如何选择如果 K 值比较小,就相当...原创 2019-05-27 13:20:03 · 378 阅读 · 0 评论 -
数据挖掘算法04 - SVM
SVMSVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工...原创 2019-05-27 13:19:05 · 552 阅读 · 0 评论 -
数据挖掘算法03 - CART
CARTCART 算法另一种常见的决策树是 CART 算法(Classification and Regression Trees,分类与回归树)。这种算法和 ID3、C4.5 相比,主要有两处不同:在分类时,CART 不再采用信息增益或信息增益率,而是采用基尼指数(Gini)来选择最好的特征并进行数据的划分;在 ID3 和 C4.5 决策树中,算法根据特征的属性值划分数据,可能会划...原创 2019-05-26 20:04:27 · 1006 阅读 · 0 评论 -
数据挖掘算法02 - C4.5
C4.5决策树学习通常包括三个步骤特征选择。选取最优特征来划分特征空间,用信息增益或者信息增益比来选择决策树的生成。ID3、C4.5、CART剪枝什么是信息熵?随机变量x概率P(x) 表示 x 出现的概率信息量H(x)=−log(P(x))信息量是信息论中的一个度量,简单来说就是,当我们观察到某个随机变量的具体值时,接收到了多少信息。而我们接收到的...原创 2019-05-26 20:04:09 · 1217 阅读 · 0 评论 -
数据挖掘算法01 - NB
Naive Bayes概率和统计里有哪些需要掌握的概念?随机变量(Random Variable)来描述事件所有可能出现的状态离散型随机变量(Discrete Random Variable)连续型随机变量(Continuous Random Variable)概率分布(Probability Distribution)来描述每个状态出现的可能性联合概率(Joint Probab...原创 2019-05-26 20:03:47 · 591 阅读 · 0 评论 -
数据分析2 - 基础篇
数据分析实战.基础篇06 | 学数据分析要掌握哪些基本概念?商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系开头中的百货商店利用数据预测用户购物行为属于商业智能,他们积累的顾客的消费行为习惯会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘。KDDKnowledge Discovery in Databas数据挖掘的流程07 | ...原创 2019-06-06 15:25:44 · 452 阅读 · 0 评论