
machine learning
人工智能新时代,机器学习,come on!
静待花开s0
If you find a path with no obstacles, it probably doesn't lead anywhere.
展开
-
Machine Learning Experiment SVM Linear Classification 详解+源代码实现
关于如何选择好的决策边界我们可以看到,上述的决策边界并不是很好,虽然都可以完整的划分数据集,但是明显不够好。此处的beta垂直于w。根据上图,我们得知,如果我们可以得到w(或者beta)同时,计算出bias(=b)就可以得到关于数据集的决策边界。优化条件这是一个带有不等式条件约束的问题,我们可以通过拉格朗日乘子法,以及对偶问题的求解来转化优化方程,来使中间的marg...原创 2020-04-24 23:42:43 · 3482 阅读 · 0 评论 -
Machine Learning Experiment5 Regularization(正则化) 详解+代码实现
为什么要引入正则化?在做线性回归或者逻辑回归的时候,会遇到过拟合问题,即,在训练集上的error很小,但是在测试集上的偏差却很大。因此,引入正则化项,防止过拟合。保证在测试集上获得和在训练集上相同的效果。例如:对于线性回归,不同幂次的方程如下通过训练得到的结果如下:明显,对于低次方程,容易产生欠拟合,而对于高次方程,容易产生过拟合现象。因此,我们引入正则化项:其他...原创 2020-04-24 23:33:01 · 3679 阅读 · 0 评论 -
Machine Learning Experiment4 Logistic Regression and Newton’s Method 详解+源代码
回顾Logistic Regression的基本原理关于sigmoid函数极大似然与损失函数牛顿法实验步骤与过程首先,读入数据并绘制原始数据散点图根据图像,我们可以看出,左下大多为负样本,而右上多为正样本,划分应该大致为一个斜率为负的直线。定义预测方程:此处使用sigmoid函数,定义为匿名函数(因为在MATLAB中内联函数即将被淘汰)定义损失函...原创 2020-04-24 23:27:07 · 2959 阅读 · 0 评论 -
Machine Learning Experiment4: Logistic Regression and Newton’s Method 详解+源代码解析
回顾Logistic Regression的基本原理关于sigmoid函数极大似然与损失函数牛顿法实验步骤与过程首先,读入数据并绘制原始数据散点图根据图像,我们可以看出,左下大多为负样本,而右上多为正样本,划分应该大致为一个斜率为负的直线。定义预测方程:此处使用sigmoid函数,定义为匿名函数(因为在MATLAB中内联函数即将被淘汰)定义损失函...原创 2020-04-08 13:56:56 · 1648 阅读 · 0 评论 -
Machine Learning Experiment 3: Linear Discriminant Analysis 详解+源代码解析
LDA for 2 Classes首先,绘制原始数据:查看LDA步骤其中设计代码加载数据,并绘制三个类的图像X1=load('ex3red.dat');X2=load('ex3green.dat');X3=load('ex3blue.dat');hold on scatter(X1(:,1),X1(:,2),'r')scatter(X2(:,1),X...原创 2020-04-05 23:27:35 · 1929 阅读 · 1 评论 -
PCA 实践 利用 PCA 算法对人脸数据集内所有人进行降维和特征提取 PCA原理解析+代码
数据集实验所用到的数据集在下面的链接中, 这些数据是来自剑桥大学提供的 AT&T 人脸数据集,有 40 个人的人脸图像, 每个人有 10 张不同光照和姿态的照片。样例:地址: http://www.cl.cam.ac.uk/Research/DTG/attarchive/pub/data/att_faces.tar.Z实验内容加载数据集,利用 PCA 算法对数...原创 2020-04-05 23:21:41 · 5900 阅读 · 4 评论 -
Machine Learning experiment2 Multivariate Linear Regression 详解+源代码实现
数据预处理:根据题目,我们得知,该数据为房价关于住房面积,卧室数量的相关数据,共47组数据,我们可以观测到住房面积接近等于卧室数量的1000倍左右,所以我们需要对数据进行标准化。首先,我们作图如下:上图为标准化之前的数据,如上图,我们可以看到,住房面积的范围在1000~5000之间。而房间数量在1~5之间,所以,我们采用以下方式对数据进行标准化。即假设正态分布,对每...原创 2020-04-04 21:10:34 · 1515 阅读 · 0 评论 -
Machine Learning experiment1 Linear Regression 详解+源代码实现
线性回归 回归模型如下:其中θ是我们需要优化的参数,x是n+1维的特征向量,给定一个训练集,我们的目标是找出θ的最佳值,使得目标函数J(θ)最小化:优化方法之一是梯度下降算法。算法迭代执行,并在每次迭代中,我们更新θ遵循以下准则其中α是学习率,通过梯度下降的方式,使得损失函数最小,求得最合适的θ值。2D线性回归题目是一个测量身高的例子,对象基于两岁到八岁之...原创 2020-04-04 21:03:16 · 1401 阅读 · 0 评论 -
什么是多模态学习?
首先,什么叫做模态(Modality)呢?每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。因此,多模态机器学习,...转载 2020-02-18 18:32:12 · 9298 阅读 · 0 评论 -
什么是表征学习?
在机器学习中,特征学习或表征学习[1]是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。机器学习任务,例如分类问题,通常都要求输入在数学上或者在计算上都非常便于处理,在这样的前提下,特征学习就应运而生了。然而,在我们现实世界中的数据例如图片,视频,以及传感器的测量值都非常...原创 2019-12-21 00:02:23 · 9298 阅读 · 0 评论 -
浅谈冷启动问题 (推荐系统相关)
1.冷启动问题定义推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,对于BAT这类大公司来说,它们已经积累了大量的用户数据,不发愁。但是对于很多做纯粹推荐系统的网站或者很多在开始阶段就希望有个性化推荐应用的网站来说,如何在对用户一无所知(即没有用户行为数据)的情况下进行最有效的推荐呢?这就衍生了冷启动问题。2.冷启动的分类冷启动问题主要分为3类:用户冷启动,即如何给新用户做...转载 2019-12-20 23:59:36 · 995 阅读 · 0 评论 -
什么是ROC曲线?为什么要使用ROC?以及 AUC的计算
一、ROC简介 ROC的全名叫做Receiver Operating Characteristic,中文名字叫“受试者工作特征曲线”,其主要分析工具是一个画在二维平面上的曲线——ROC 曲线。平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对...原创 2019-11-25 23:24:39 · 66616 阅读 · 0 评论 -
Fashion_mnist数据集介绍
Fashion-MNIST](https://hanxiao.github.io/2018/09/28/Fashion-MNIST-Year-In-Review/)目录为什么要做这个数据集?获取数据如何载入数据?基准测试数据可视化参与贡献联系在论文中引用Fashion-MNISTLicenseFashion-MNIST是一个替代MNIST手写数字集的图像数据集。 它是...转载 2019-11-24 14:42:07 · 8971 阅读 · 3 评论 -
MCMC原理解析(马尔科夫链蒙特卡洛方法)
马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo),简称MCMC,MCMC算法的核心思想是我们已知一个概率密度函数,需要从这个概率分布中采样,来分析这个分布的一些统计特性,然而这个这个函数非常之复杂,怎么去采样?这时,就可以借助MCMC的思想。 它与变分自编码不同在于:VAE是已知一些样本点,这些样本肯定是来自于同一分布,但是我们不知道这个分布函数的...转载 2019-11-19 08:56:20 · 6666 阅读 · 2 评论 -
DBSCAN聚类算法原理及图解
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。1. 密度聚类原理 DBS...原创 2019-11-18 23:22:51 · 12626 阅读 · 1 评论 -
聚类算法之——k-means,k-means++,Minibatch kmeans
聚类算法之——k-means,k-means++,Minibatch kmeans原始K-means算法最开始随机选取数据集中K个点作为聚类中心,而K-means++按照如下的思想选取K个聚类中心:假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。 在选取第一个聚类中心(n...原创 2019-11-18 20:48:59 · 1389 阅读 · 0 评论 -
周志华老师报告Boasting 25years
一、经典的机器学习过程训练数据 - 模型 -预测二、集成学习的成功三、集成学习的分类一个是序列化的,一个是平行的。四、关键点:Adaboast优势:准确,简单,广泛而又成功的应用,具有理论基础。1. 诞生把一个弱学习器改造成一个和强学习器有相同效果的算法,创造者给了构造性证明。(未完)视频参考:...原创 2019-11-17 22:01:37 · 514 阅读 · 0 评论 -
MATLAB一键安装LIBSVM(无需手动配置)
首先,选择获取更多APP然后搜索LIBSVM右上角选择安装并添加到路径就OK了原创 2019-11-11 14:57:54 · 381 阅读 · 0 评论 -
随机梯度下降之——SGD自适应学习率
随机梯度下降之——SGD自适应学习率http://ruder.io/optimizing-gradient-descent/index.html#gradientdescentvariantsAn overview of gradient descent optimization algorithmsNote: If you are looking for a review pap...转载 2019-09-23 20:14:04 · 6203 阅读 · 0 评论 -
为什么线性回归中代价函数除以2m?
转https://blog.youkuaiyun.com/shengchaohua163/article/details/77871628转载 2019-08-01 10:33:21 · 1575 阅读 · 0 评论 -
MATLAB中 crossvalind K重交叉验证
官方文档:https://ww2.mathworks.cn/help/bioinfo/ref/crossvalind.htmlk-重交叉验证(k-fold crossValidation):在机器学习中,将数据集A 分为训练集(training set)B和测试集(testset)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作...转载 2019-11-10 11:10:17 · 4354 阅读 · 0 评论 -
超参数
在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数。 相反,其他参数的值通过训练得出。超参数: 定义关于模型的更高层次的概念,如复杂性或学习能力。 不能直接从标准模型培训过程中的数据中学习...原创 2019-04-22 08:44:00 · 861 阅读 · 0 评论 -
机器学习和深度学习中的一些名词
机器学习和深度学习中的一些名词1.训练集,测试集和验证集比较训练集作用:估计模型学习样本数据集,通过匹配一些参数来建立一个分类器。建立一种分类的方式,主要是用来训练模型的。验证集作用:确定网络结构或者控制模型复杂程度的参数对学习出来的模型,调整分类器的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。测试集作用:检验最终选择...原创 2019-04-15 10:08:46 · 538 阅读 · 0 评论