
数据分析实战
系列知识点
LiuDi1999
啦啦啦
展开
-
SVM(下):如何进行乳腺癌检测
SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何在 sklearn 中使用 SVM在 Python 的 sklearn 工具包中有 SVM 算法,首先需要引用工具包:from sklearn import svmSVM 既可以做回归,也可以做分类器。当用 SVM 做回归的时候,我们可以使用 SVR 或 LinearSVR。当做分类器的时候,我们使用的是 SVC 或者 Line原创 2020-09-17 19:27:58 · 758 阅读 · 0 评论 -
SVM(上):如何用一根棍子将蓝红两色球分开?
SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比如将数据进行聚类,方便后续人工对每个类进行分析。SVM 作为有监督的学习模型,通常可以帮我们模式识别、分类以及回归分原创 2020-09-17 17:48:59 · 1086 阅读 · 0 评论 -
朴素贝叶斯分类(下):如何对文档进行分类
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。这三种算法适合应用在不原创 2020-09-16 21:10:52 · 975 阅读 · 0 评论 -
朴素贝叶斯分类(上):如何让机器判断男女?
贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。假设有一种病叫做“贝叶死”,它的发病率是万分之一,即 10000 人中会有 1 个人得病。现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?你可能会想说,既然查出患有“贝叶死”的准确率是 99.9%,那是不是实际上患“贝叶死”的概率也是 99.原创 2020-09-16 17:55:40 · 940 阅读 · 0 评论 -
决策树(下):泰坦尼克号乘客生存预测
决策树算法是经常使用的数据挖掘算法。这是因为他呈现出来比较直观。基于决策树还诞生了很多数据挖掘算法,比如随机森林。sklearn中的决策树模型首先,需要知道sklearn中的自带的决策树分类器DecisionTreeClassifier,方法如下:clf = DecisionTreeClassifier(criterion='entropy')到目前为止,sklearn 中只实现了 ID3 与 CART 决策树,所以我们暂时只能使用这两种决策树,在构造 DecisionTreeClassifier原创 2020-09-16 14:35:21 · 545 阅读 · 0 评论 -
决策树(中):CART算法,分类回归树
基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。首先需要了解的是,什么是分类树,什么是回归树呢?用下面的训练数据举个例子,你能看到不同职业的人,他们的年龄不同,学习时间也不同。如果构造了一棵决策树,原创 2020-08-20 18:14:19 · 1197 阅读 · 0 评论 -
决策树(上):要不要去打篮球?
决策树的工作原理决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球,一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断,最后得到结果:去打篮球?还是不去?上面这个图就是一棵典型的决策树。**我们在做决策树的时候,会经历两个阶段: ** 构造和剪枝。构造什么是构造呢?构造就是生成一棵完整的决策树。简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点:根节点:就是树的最顶端,最开始的那个节点。在上图中,“天气”就是一个根节点;内部节点:就原创 2020-08-19 19:07:24 · 2439 阅读 · 0 评论 -
Python数据可视化的10种技能
按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。这四种关系的特点:比较: 比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系: 查看两个或两个以上变量之间的关系,比如散点图;构成: 每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;分布: 关注单个变量,或者多个变量的分布情况,比如直方图。同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。单变量分析指的是一次只关注一个变量。 比如我们只关注“身高”这个原创 2020-08-16 19:26:45 · 402 阅读 · 0 评论 -
数据采集:自动化处理数据
一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。那么,从数据采集角度来说,都有哪些数据源呢?我们将数据源分成了以下的四类。这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集。 它们各有特点。开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政府外,企业和高校也会开放相应的大数据。爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网原创 2020-08-15 16:28:02 · 1347 阅读 · 0 评论