
机器学习
文章平均质量分 53
随便叫点什么……
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
朴素贝叶斯算法——文本分类(离散型)
朴素贝叶斯算法:按照概率分类的算法。我们在豆瓣上经常能看到一些书籍和电影评价,有好的评价,也有差评。关于影评好坏的结果是怎么来的呢?后台小姐姐一条条的看,然后进行分类吗?利用我们的朴素贝叶斯算法, 可以实现对文本的分类。在上代码之前先来进行一下数学预热:概率基础复习定义:概率定义为一件事发生的可能性,扔出一个硬币,结果头像朝上P(X):取值在[0,1]联合概率、条件概率与相互独立:联合概率:包含多个条件,且所有条件同时成立的概率 记作:P...原创 2021-04-23 17:24:25 · 1848 阅读 · 3 评论 -
朴素贝叶斯——连续型数据
关于朴素贝叶斯的原理及离散型的朴素贝叶斯,参见上一篇博文:https://blog.youkuaiyun.com/gongfuxiongmao_/article/details/116062023?spm=1001.2014.3001.5502对于连续型的数据,在假定数据符合正态分布的前提下,可以对训练数据中每个特征进行高斯处理,得到一个特征的高斯曲线,利用高斯曲线来估计预测数据属于某一类的概率。比如下面的例子中,数据有四个特征值:x1,x2,x3,x4 ; 同时有三个分类结果:生男孩,生女孩,没怀孕。对应原创 2021-04-23 20:19:42 · 3338 阅读 · 2 评论 -
knn方法预测怀孕,KNN原理简单代码
knn算法即: K-近邻算法(K Nearest Neighborhood),物以类聚人以群分,这是一种根据你的邻居,对你进行分类的方法。knn方法属于监督学习方法,其原理是: 如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K为人为设定的超参数提到远近就离不开距离,在学习knn算法之前,建议先复习一下闵可夫斯基距离,数学部分可以参照西瓜书,或李航博士的统计学原理。在本案例中,我们使用的是欧式距离,当闵可夫斯基距...原创 2021-04-23 15:26:22 · 577 阅读 · 0 评论 -
k-means聚类简单代码实现
聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。简单的聚类代码实现:# coding:utf-8from math import *from random import randomimport numpy as npfrom numpy import *from numpy.ma import power,mea原创 2021-05-13 22:53:32 · 1109 阅读 · 0 评论 -
决策树简单代码实现
决策树是比较重要的机器学习方法。决策树的本质是一棵由多个判断节点组成的树,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。思考:如果一个训练数据集,包含多个特征,在构造决策树的过程中,我们该如何确定判断的顺序呢?这里引入信息熵的概念:与我们在热力学定律中学习到的热熵相似,信息熵是从信息的有序性上进行定义的,当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。在数学上,信息熵是这样计算的(需要加上权重):在决策树的构原创 2021-05-08 19:07:17 · 2805 阅读 · 0 评论