
机器学习
文章平均质量分 62
lihe2021
这个作者很懒,什么都没留下…
展开
-
连续关节运动意图的估计方法
连续关节运动意图的估计方法转载 2022-11-05 20:00:00 · 1053 阅读 · 0 评论 -
信号处理第二式——计算两个序列的时间延迟MTALAB代码实现讲解
https://blog.youkuaiyun.com/qq_41649861/article/details/114483449原创 2022-05-01 21:54:45 · 962 阅读 · 0 评论 -
协变量偏移与领域偏移
转载于https://zhuanlan.zhihu.com/p/195704051协变量偏移Covariate Shift数据集偏移 Dataset Shift的一种,源域与目标与边缘分布不同,条件分布和标签分布均相同。即学习任务相同,标签分布也相同,但是输入空间的数据存在一定的分布偏差。。为啥叫协变量偏移?统计学家称这种协变量变化是因为问题的根源在于特征分布的变化(统计学中的协变量即机器学习中的特征的概念[4])。协变量偏移与领域偏移的关系?我认为领域偏移要求不同Domain的输入空间有共同的转载 2022-04-06 14:46:14 · 1189 阅读 · 0 评论 -
领域自适应(Domain Adaptation)和多源领域自适应(Multi-source Domain Adaptation)
转载于https://zhuanlan.zhihu.com/p/50710267《迁移学习》: 领域自适应(Domain Adaptation)的理论分析小蚂蚁曹凯中国科学院大学 数学与系统科学研究院博士在读774 人赞同了该文章领域自适应即Domain Adaptation是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对source domain训练的目标函数,就可以迁移到target domain上,提高ta原创 2022-03-26 21:03:34 · 13918 阅读 · 1 评论 -
Covariate Shift(协变量偏移)
转载于https://zhuanlan.zhihu.com/p/205183444此系列文章为笔者学习工作中的阶段性总结,难免有纰漏,如有不正之处,欢迎指正,大家共同成长。Covariate Shift现象在机器学习的工业界应用中经常遇到,这个概念实际上属于Dataset Shift的一种。Dataset Shift概念在ML项目中,我们一般将采集到的真实场景的数据分成训练集和测试集(或验证集),并假设训练集和测试集符合独立同分布,这样才能保证在训练集上表现良好的模型同样适用于测试集(真实场景)。但是当因转载 2022-03-26 20:52:31 · 9496 阅读 · 4 评论 -
Covariate Shift
Covariate ShiftcicadaCV从业者31 人赞同了该文章此系列文章为笔者学习工作中的阶段性总结,难免有纰漏,如有不正之处,欢迎指正,大家共同成长。Covariate Shift现象在机器学习的工业界应用中经常遇到,这个概念实际上属于Dataset Shift的一种。Dataset Shift概念在ML项目中,我们一般将采集到的真实场景的数据分成训练集和测试集(或验证集),并假设训练集和测试集符合独立同分布,这样才能保证在训练集上表现良好的模型同样适用于测试集(真实场景)。但是当因为某些原因,转载 2022-01-05 19:51:53 · 805 阅读 · 0 评论 -
特征选择方法概括—过滤法、嵌入法、包装法
一、过滤法(Filter)特点:过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法过程:目标对象:需要遍历特征或升维的算法。最近邻算法KNN,支持向量机SVM,决策树,神经网络,回归算法等遍历特征或升维运算,本身的运算量很大,需要的时间很长,因此特征选择很重要。随机森林不需要遍历特征,每次选的特征就很随机,并非用到所有的特征,所以特征选择作用不大。思考:过滤法对随机森林无效,却对树模型有效?解释:传统决策树需遍历所有特征,计算不纯度后分枝,而随机森林却是随机选择特征进行计算和分枝,.转载 2021-12-30 15:55:46 · 4756 阅读 · 0 评论 -
分类与回归算法介绍
分类算法分类(Classification)是机器学习的主要任务之一,分类算法是一种典型的监督学习算法,是根据样本的特征将样本划分到合适的类别中。具体来说就是利用训练样本来进行训练,从而得到样本特征到样本标签的映射,再利用该映射来得到新样本的标签,最终达到将样本划分到不同类别的目的。简而言之,分类就是通过一组代表物体、事件等的相关属性来判断其类别。分类问题通常有两种,一种是二元分类问题,另一种是多元分类。对于二元分类问题,通过已有的特征属性来判断事物或者事件的类别,其产生+的结果只有“0”和“1”,即要转载 2021-12-30 11:05:00 · 4183 阅读 · 0 评论 -
特征选择与特征提取-嵌入法、包装法
在上篇特征选择与提取最全总结之过滤法中已经介绍了特征选择的其中一大方法--过滤法。本篇将继续介绍特征选择与特征提取方法,其主要内容如下所示。嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的 feature_importances_ 属性,可以列出各个特征对树的建立的贡献,我们就转载 2021-12-29 22:31:33 · 3030 阅读 · 0 评论 -
特征选择与提取-过滤法
特征抽取是数据挖掘任务最为重要的一个环节,一般而言,它对最终结果的影响要高过数据挖掘算法本身。不幸的是,关于怎样选取好的特征,还没有严格、快捷的规则可循,其实这也是数据挖掘科学更像是一门艺术的所在。创建好的规则离不开直觉,还需要专业领域知识和数据挖 掘经验,光有这些还不够,还得不停地尝试、摸索,在试错中前进,有时多少还要靠点运气。通常特征数量很多,但我们只想选用其中一小部分。有如下几个原因。1、降低复杂度随着特征数量的增加,很多数据挖掘算法需要更多的时间和资源。减少特征数量,是提高算法运行速度,减少资源使转载 2021-12-29 22:28:20 · 3158 阅读 · 0 评论 -
特征抽取(Feature Extraction)与特征选择(Feature Selection)
特征选择与特征抽取 2019-04-102019-04-10 09:59:39阅读 7060特征抽取和特征选择是DimensionalityReduction(降维)两种方法,但是这两个有相同点,也有不同点之处:1. 概念:特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射。特征选择(Feature Selec转载 2021-12-29 21:58:16 · 8260 阅读 · 0 评论 -
特征缩放(Feature scaling)
转载于https://segmentfault.com/a/1190000022155741特征缩放适用于连续型变量,用来统一不同特征之间的量纲。注意,机器学习数据中的连续变量特征往往符合正态分布,并且特征缩放往往都符合线性变换,不会改变原始数据的排位顺序。使用场景:1、连续特征变量2、回归模型中,不同特征缩放后,对应的回归系数具有可比性3、距离计算模型中,不同维度量纲统一,不会出现过度依赖量纲较大的特征。比如KNN,K-Means使用欧式距离4、梯度优化中,特征间均衡的量纲可以让梯度下降更加转载 2021-12-27 15:55:53 · 1601 阅读 · 0 评论 -
使用浅层神经网络拟合数据(利用matlab神经网络工具箱)
使用浅层神经网络拟合数据神经网络擅长拟合函数。事实上有证据表明,一个简单的神经网络就可以拟合任何实用函数。例如,假设您有一家健康诊所的数据。您想要设计一个网络,该网络可以基于 13 个解剖学测量值来预测人的体脂率。您总共有 252 个人的样本,其中包括这 13 项数据和相关的体脂率。您可以用两种方法解决此问题:使用图形用户界面 nftool,如使用神经网络拟合中所述。 使用命令行函数,如使用命令行函数中所述。 通常最好从 GUI 开始,然后使用 GUI 自动生成命令行脚本。在使用任何方法之前,首先通过选择数转载 2021-12-13 22:23:48 · 570 阅读 · 0 评论 -
基于信息论的特征选择
来源于吉林大学刘华文博士论文《基于信息熵的特征选择算法研究》随着新技术的不断出现,现实中数据集朝着大规模方向发展,并呈现样本少、维数高等特点,这给传统的数据分类学习带来了巨大的挑战,其中冗余特征的存在间接加重这种不利影响。因此,如何从高维数据中剔除冗余或无关的特征,以避免维灾难问题,使得传统学习算法仍然能在高维数据上进行学习训练是目前人们面临的一道难题。特征选择就是在这种情况下提出的,它主要是指从数据的原始特征中选择一个最优特征子集,使得它包含原始特征的全部或大部分分类信息的过程。目前,特征选择是数据挖掘原创 2021-11-25 20:42:33 · 563 阅读 · 0 评论 -
信息论与互信息
在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。 在信息世界中,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。 自信息: 1、自信息表示事件发生前,事情发生的不确定性 2、自信息表示事件发生后,事件所包含的信息量,是提供给新宿的信息量,也是解除这种不确定性所需要的信息量。 互信息: 离散随机事件之间的互信息: ...转载 2021-11-25 19:37:12 · 1092 阅读 · 0 评论 -
高斯混合模型(GMM)及MATLAB代码
GMM高斯混合模型及EM算法(matlab和python实现):https://blog.youkuaiyun.com/taw19960426/article/details/103528111高斯混合模型(GMM)及MATLAB代码:https://www.cnblogs.com/jins-note/p/11342498.html原创 2021-11-25 19:17:40 · 7000 阅读 · 0 评论 -
使用libsvm进行分类的实例
二, 使用libsvm进行分类首先给出实例地址 方便下载 https://github.com/wangjiwu/BreastTissue_classify_matlab这里给出了101个数据, 每一个数据都有9个特征和一个分类标签用这些数据来生成测试集和训练集, 得到模型并且测试,分类代码流程I. 清空环境变量II. 导入数据III. 数据归一化IV. SVM创建/训练(RBF核函数)V. SVM仿真测试VI. 绘图I. 清空环境变量clear allclcII. 导入数据load转载 2021-11-18 21:47:16 · 3085 阅读 · 2 评论 -
在Matlab中安装LibSVM工具箱
当初在优快云上看了很多LibSVM的教程,下载再编译、改路径什么的一头雾水,现在把安装过程图文总结出来,小白也能十分钟安装好LibSVM工具箱! 安装好了可以直接跳到第三节:LibSVM使用指南! 一、LibSVM工具箱下载 工具箱下载地址:https://www.csie.ntu.edu.tw/~cjlin/libsvm/ 往下拉找到Download LIBSVM,点击zip.file下载压缩包 1.1、官网下载的...转载 2021-11-18 21:34:57 · 11245 阅读 · 28 评论 -
SVM及Libsvm&Liblinear
一、概念支持向量机(SVM,Support Vector Machine)属于一种线性分类器,是建立在统计学习理论的VC维理论和结构风险最小原理的基础上,根据有限的训练集,在模型的复杂性和学习性之间寻求最佳的折中,以获得最好的泛化能力的经典分类方法。对于SVM可以简单的理解为(以二分类为例)根据训练集中数据及其label找到一个分割面把两类准确的分开,分割面的确定是根据支持向量和分割面的距离最大化确定的。SVM是当前最好的有监督学习算法,它的出现解决了神经网络的局部最优化的问题,得到全原创 2021-11-18 20:51:11 · 809 阅读 · 0 评论 -
精确率、准确率、召回率
TP: Ture Positive 把正的判断为正的数目 True Positive,判断正确,且判为了正,即正的预测为正的。FN: False Negative 把正的错判为负的数目 False Negative,判断错误,且判为了负,即把正的判为了负的FP: False Positive 把负的错判为正的数目 False Positive, 判断错误,且判为了正,即把负的判为了正的TN: True Negative 把负的判为负的数目 True Negative,判断正确,且判为了负,即把负的判为转载 2021-11-18 20:29:11 · 11494 阅读 · 0 评论