
机器学习基础
分享一些机器学习的理论和实战
misaka2019
一名机器学习的爱好者,平时喜欢分享一下自己的笔记
展开
-
数学基础之概率论(一)
原创 2020-07-12 08:04:19 · 256 阅读 · 0 评论 -
数学基础之概率论(一)
原创 2020-07-11 22:31:44 · 157 阅读 · 0 评论 -
线性回归
原创 2020-07-08 23:52:12 · 218 阅读 · 0 评论 -
纯python实现k_means算法及知识点
k_means是一种聚类算法,也是无监督学习算法。在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签。数据看起来可以分成几个点集(簇),一个能够找到圈出这些点集的算法被称为聚类算法。K-均值是一个迭代算法,主要操作...原创 2020-04-21 16:56:10 · 537 阅读 · 0 评论 -
纯python实现KNN算法及知识点模型评估
KNN 是一个简单的无显示学习过程,非泛化学习的监督学习模型KNN的主要思路对于输入带有特征向量的数据集,就是实例数据的分类已经确定,然后输入待分类数据,计算待分类数据和已知类别数据的欧氏距离,对其进行排序,并根据设置k的大小,选出前k个与其距离最近的数据。根据少数服从多数原则,选出其中出现次数最多的类别,即为该待测数据的类别。一句话总结就是:近朱者赤近墨者黑KNN不同于其他算法模型,它不...原创 2020-04-21 16:56:42 · 1302 阅读 · 0 评论 -
【吴恩达机器学习】代价函数的总结
在讲代价函数之前我们说一下假设函数。假设函数是通过训练得出模型,把模型表示成一个函数,来对输入变量预测出输出变量的。例如:对于一个单变量线性回归模型,假设函数是 ℎ????(????) = ????0 + ????1????除输入变量和输出变量之外的那两个参数是可以任意改变的。我们做的是改变这些参数,让我们模型的误差更小。当然单变量线性回归问题中,那两个参数便是斜率和截距。我们参数的选择直接决定了训练结果的准确程度。...原创 2020-04-21 17:48:56 · 316 阅读 · 0 评论 -
【吴恩达机器学习】监督学习和无监督学习的区别
简单来说,监督学习是我们来教计算机做某些事情,无监督学习是计算机自己学习做某件事情。更直白讲,监督学习是我们输入一个包含正确答案的数据集,然后让机器总结出通用规律,当我们输入其他数据的时候,计算机可以预测出这些数据的正确答案。监督学习包括回归问题和分类问题。回归问题:是指我们设法预测出连续值的属性。分类问题:我们设法预测出一个离散值的输出。无监督学习则是输入具有相同标签或没有标签的数据集...原创 2020-04-21 17:49:36 · 364 阅读 · 0 评论 -
数据可视化的方法总结
数据可视化指的是通过可视化表示来探索数据,它与数据挖掘紧密相关。总的来说数据可视化能让人们更直观的看到数据的特点。其实数据可视化也是对数据进行处理,只不过是以图表方式来表现的。下面将介绍几种用matplotlib库来实现可视化的方法。数据可视化还有数据描述性统计,就是算出方差,均值,中位数等等。def des(self,n): def status(x): retu...原创 2020-04-21 17:50:23 · 1461 阅读 · 0 评论 -
矩阵常用的运算
矩阵的加法要求行列数相等,按位相加。矩阵和常数的乘法,每个元素都要乘。矩阵和向量的乘法???? × ????的矩阵乘以???? × 1的向量,得到的是???? × 1的向量。即矩阵每行的第一个和列向量第一行数字相乘,第一行第二个数和列向量第二行数字相乘,第一行第n个和列向量第n行数字相乘,然后相加生成结果的第一行。以此类推,就生成了m x 1的列向量。矩阵乘法???? × ????矩阵乘以???? × ????矩阵,变成???? × ????矩阵...原创 2020-04-22 08:51:41 · 519 阅读 · 0 评论 -
python底层实现逻辑回归附代码思路和知识点
逻辑回归是一种分类算法,它适用于标签y取值离散的情况。而线性回归只能预测连续的值。并且线性回归预测值远超[0,1]范围,因此不适合解决分类问题。这时,我们需要引入一个新的模型,逻辑回归,让输出变量始终在0到1的范围内。逻辑回归模型的假设是: ℎ????(????) = ????(????????????) 其中: ???? 代表特征向量 ???? 代表逻辑函数(logisticfunction)是一个常用的逻辑函数为 S 形函数(...原创 2020-04-22 08:52:48 · 478 阅读 · 0 评论 -
梯度下降法总结及实现单变量线性回归
梯度下降法思路就是,开始随机选择参数组合,计算代价函数,寻找到下一个能让代价函数下降最快的参数组合(对某一参数的偏导方向),然后不断重复这一过程,直到找到一个局部最小值。因为并没有计算过所有的参数组合,所以并不知道局部最小值是否是全局最小值。所以选择不同的初始参数组合,可能会找到不同的局部最小值。可以做一个形象的比喻:把曲面图想象成一座山,你正站在山上的某点。在梯度下降算法中,我们要做的就是环绕...原创 2020-04-22 08:56:35 · 1058 阅读 · 0 评论 -
正规方程实现多变量线性回归
相比于梯度下降算法,正规方程解法更加简洁。???? = (????????????)−1???????????? 的推导过程:????(????) = 1/ 2????∑ (ℎ????(????(????)) − ????(????))2 ????????=1其中:ℎ????(????) = ???????????? = ????0????0 + ????1????1 + ????2????2+…+????????????????将向量表达形式转为矩阵表达形式,则有????(????) = 1原创 2020-04-22 08:57:48 · 510 阅读 · 0 评论 -
数据预处理方法总结
数据是机器学习的原料,机器学习是通过对数据的训练才得到某种特性的。因此正确的预处理数据对模型结果的输出尤为重要。-一、数据可能存在的问题数据一开始可能有数据重复,数据缺失,数据存在异常值等情况。二、数据预处理的步骤数据处理主要包括数据的清洗,数据的转化.数据描述,特征选择和特征抽取这几个步骤。1、数据清洗主要通过对缺失值,异常值和重复数据的处理来完成的。对缺失值的处理首先要判断...原创 2020-04-22 09:42:00 · 802 阅读 · 0 评论 -
决策树算法讲解
简介决策树算法以树状结构表示数据分类的结果。每一个决策点实现一个具有离散输出的测试函数,记为分支。它基于二元划分策略(类似于二叉树)。一棵决策树包括一个根节点、若干个内部节点(决策点)和若干个叶节点(决策结果)。叶节点对应决策的结果,而其他节点对应一个属性测试。决策树学习的目的就是构建一棵泛化能力强的决策树。在分类问题中,决策树表示基于特征对实例进行分类的过程。它可以认为是 if-then...原创 2020-04-23 22:37:15 · 2335 阅读 · 0 评论 -
soft max回归原理
soft max是一个多分类算法,可以理解为逻辑回归的一般情况。推导思路为:首先证明多项分布属于指数分布族,这样就可以使用广义线性模型来拟合这个多项分布,由广义线性模型推导出的目标函数即为Softmax回归的分类模型。对于输入的数据有K个类别,那么soft max回归主要估算输入数据x_i归属于每一类的概率。其中θ是模型的参数,乘以后者是为了让概率位于[0,1]并且概率之和为1,softmax 回归将输入数据x_i归属于类别j的概率为原理和逻辑回归差不多,也是对代价函数求偏导,利用梯度下降法最原创 2020-05-17 12:42:59 · 673 阅读 · 0 评论 -
朴素贝叶斯原理总结
贝叶斯原理贝叶斯原理其实是用来求“逆向概率”的。所谓“逆向概率”是相对“正向概率”而言。就是从结果推出条件。贝叶斯原理建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。贝叶斯公式实际上,贝叶斯公式就是求阶后验概率的。朴素贝叶斯它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。输入变量就是特征,朴素贝叶斯原创 2020-05-17 12:45:00 · 4162 阅读 · 0 评论 -
随机森林知识点总结
随机森林的随机是在构建树时对训练数据点进行随机抽样,分割节点时,考虑特征的随机子集。随机森林由决策树组成,决策树实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二随机森林生成的树是完全生长的,便于计算每个特征的重要程度。随机森林思想是构建优秀的树,优秀的树需要优秀的特征。那么我们就需要随机改变特征值,然后测试改变前后的误差率。误差率的差距是该特征在树中的重要程度。然后求在每棵树在该特征的误差率之和称为该特征在森林中的重要程度。然后按照重要程度排序,去除森林中重要程度低的部分原创 2020-05-17 12:46:09 · 765 阅读 · 0 评论