
机器学习
文章平均质量分 91
来路与归途
来路慢慢,情不知所起;
归途遥远,眨眼便是过去。
展开
-
K-means
K-Means算法中K值得选择K-means聚类最优k值的选取1.手肘法手肘法的核心指标是SSE(sum of the squared errors,误差平方和)其中,Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏。 手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增加每...原创 2022-03-29 18:08:24 · 803 阅读 · 0 评论 -
矩阵求导
一、矩阵和向量求导机器学习中最常用的矩阵求导有:标量对矩阵的求导,矩阵对标量求导以及向量对向量的求导。下面分别对这几种求导方式进行介绍。标量对矩阵的求导如果函数f把一个元素为实数的m×n矩阵,映射为一个实数,则也就是实值函数f对矩阵X求导其实就是f对X的各元素分别求导得到一个与X同型的矩阵。比如且f(X)=x + 2y + 3z + 4w,则再比如正规方程推导那篇文章中的例子,设,则矩阵对标量的求导如果函数f把实数x映射成一个元素为实数的m×n矩阵也就是矩阵Y原创 2020-12-04 23:32:07 · 5525 阅读 · 0 评论 -
sklearn——加载数据集
1. 通用数据集 API根据所需数据集的类型,有三种主要类型的数据集API接口可用于获取数据集;方法一,loaders 可用来加载小的标准数据集,在玩具数据集中有介绍方法二,fetchers 可用来下载并加载大的真实数据集,在真实世界中的数据集中有介绍说明:loaders和fetchers的所有函数都返回一个字典一样的对象,里面至少包含两项:shape为n_samples*n_...原创 2019-07-25 18:26:55 · 13163 阅读 · 0 评论 -
支持度、置信度和提升度
一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公原创 2020-07-04 15:47:31 · 4118 阅读 · 0 评论 -
图像压缩——聚类
步骤对图像特征进行分类,用每一类的中心点特征代替所属类所有点的特征1.图像(W,H,C)归一化2.将图像reshape成(W*H,C),即将图像看出W*H个C维特征点进行聚类3.随机选取1000个点,进行聚类训练,聚类为n_colors 类4.对图像W*H个点进行预测归类,返回该点所属的类(0~n_colors)函数说明1.KMeans聚类class sklearn...原创 2019-08-21 17:09:12 · 476 阅读 · 0 评论 -
聚类算法
概念:一种典型的无监督学习算法,主要用于将相似的样本自动归于一个类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法步骤 : 1.设定聚类个数K的值(通过肘部法确定,或根据实际要聚的类数确定) 2.生成K个聚类中心点 3.计算所有样本到聚类中心点的距离,根据远近聚类 4.更新质心,迭代聚类...原创 2019-08-24 20:14:54 · 189 阅读 · 0 评论 -
机器学习——感知机
1.基本概念1.1根据输入和输出变量的不同类型,将预测任务分为: 回归问题:输入变量和输出变量均为连续变量 分类问题:输出变量为有限个离散变量 标注问题:输入变量和输出变量均为变量序列1.2统计学习三要素 方法=模型+策略+算法模型——所要学习的条件概率,或决策函数策略——按照什么样的准则学习或选择最优的模型 ...原创 2019-07-12 01:03:16 · 350 阅读 · 0 评论 -
K近邻算法——sklean的实现
实现K近邻算法多分类sklearn.neighbors.KNeighborsClassifier¶详解地址:https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier实现步骤fro...原创 2019-07-16 00:36:55 · 294 阅读 · 0 评论 -
机器学习——K近邻,多分类
K近邻假设给定一个训练数据集,其中的实例类别一定,分类时,对新的实例根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测K近邻法使用的模型实际上对应于特征空间的划分,模型由三个基本要素——距离度量,K值的选择,分类决策规则距离度量闵可夫斯基距离(Minkowski distance)或Lp距离欧式距离曼哈顿距离K值的选择在应用中, K值一...原创 2019-07-15 00:10:41 · 436 阅读 · 0 评论 -
机器学习——概率模型
概述——用一类图来表达变量相关关系的概率模型(概率模型将学习任务归结于计算变量的概率分布)P(A|B)=P(A,B)/P(B)——根据联合概率 P(A,B)推断 P(A|B)的过程具体说:假定所关心的变量集合为 Y,可观测变量集合为 O,其他变量的集合为 R“生成式”模型:考虑联合分布 P(Y,R,O)”判别式“模型:考虑联合分布 P(Y,R|O)“推断”——利用已知变量推测...原创 2019-06-23 15:23:23 · 4717 阅读 · 0 评论 -
scikit-learn安装
先前条件:安装python跟pip工具Scikit-learn 需要安装Python (>= 2.7 or >= 3.4), NumPy (>= 1.8.2), SciPy (>= 0.13.3).如果已经安装PIP工具,可以直接使用如下命令,进行自动安装pip install scikit-learn本人亲测:win32/64都是会先安装 scik...原创 2019-03-02 12:47:35 · 1191 阅读 · 0 评论