
机器学习
一弦-sring
声学专业在读博士,语音信号处理方向
展开
-
数据预处理
数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太 大或太小 数据预处理的目的:让数据适应模型,匹配模型的需。sklearn模块:preprocessing(几乎包含预处理所有内容 )Impute(填补缺失原创 2020-06-14 21:51:43 · 625 阅读 · 1 评论 -
机器学习—逻辑回归(logistics regression)、朴素贝叶斯(Naive Bayesian)
软分类是直接根据概率值进行判断的,求解两种概率P(y=1)和P(y=-1),然后对概率值进行比较,判断所属类别,如下:注意:虽然逻辑回归得到了概率值,但是它是进行了置信区间的变换,是类概率,并不是真正意义上的概率,只有朴素贝叶斯是真正意义上对应的概率值。1. 逻辑回归(logistics regression)说明:名字是一种音译,是一种名为“回归”的分类目标:通过sigmoid函数计算P原创 2020-06-14 20:43:27 · 953 阅读 · 0 评论 -
机器学习 — SVM(支持向量机),PLA(感知机),LDA(线性判别分析)
硬分类是直接根据决策边界进行判断的,直接区分+1和-1两种类别,如下:注意:w和x作为向量,索引取值如果是从0、1、2、……、n,那么i=0的时候,对应的w0x0是阈值,如果没有阈值,那么该超平面就是始终过原点的。1. 线性SVM思想:几何间距目标:找到几何间距margin,处理线性可分问题,详情见SVM介绍。对应的非线性问题处理方法是:非线性VM2、PLA思想:错误驱动,根据输出和预原创 2020-06-14 20:34:23 · 2515 阅读 · 0 评论 -
特征选择—过滤法(Filter)、嵌入法(Embedded)和包装法(Wrapper)
一、过滤法(Filter)目的:在维持算法表现的前提下,帮助算法们降低计算成本特点:独立操作,不与后续分类(或者回归)模型相关过程:目标对象:需要遍历特征或升维的算法。最近邻算法KNN,支持向量机SVM,决策树,神经网络,回归算法等遍历特征或升维运算,本身的运算量很大,需要的时间很长,因此特征选择很重要。随机森林不需要遍历特征,每次选的特征就很随机,并非用到所有的特征,所以特征选择作用不大。思考:过滤法对随机森林无效,却对树模型有效?解释:传统决策树需遍历所有特征,计算不纯度后分枝.原创 2020-06-14 20:22:15 · 13538 阅读 · 1 评论 -
神经网络——MLP(多层感知机)和RBF(径向基函数神经网络)
一、整体概念神经元激活值和激活函数二、MLP三、RBF参考:Principles of training multi-layer neural network using backpropagationRBF神经网络是什么?RBF(径向基)神经网络学堂在线:数据挖掘:理论与算法,清华大学,袁博老师炼数成金:机器学习及其MATLAB实现—从基础到实践...原创 2020-06-14 18:06:49 · 3254 阅读 · 0 评论 -
降维—PCA
1. 定义:将现有特征映射到一个新的特征空间中,然后得到新的特征。 特点:维度降低,数据改变。2. 目的:算法运算更快效果更好;数据可视化3. 衡量指标:样本方差,又称可解释性方差,方差越大,特征所带的信息量越多。其中,Var表示某特征的方差,n代表样本量,xi表示某特征中的各样本 取值,x’代表该特征对应样本的均值。4. 方法:矩阵分解。用来找出n个新特征向量,让数据能够被压缩到少数特征上并且总信息量不损失太多的技术。5. 操作过程:6. 举例:原数据是二维的(x1和x2)原创 2020-06-14 17:13:54 · 291 阅读 · 0 评论 -
决策树和随机森林
一、决策树二、随机森林定义:多棵随机数用随机的方式建立一个森林,决策树间是没有关联的。(集成算法)目的:多棵树同时进行判断,并以少数服从多数的方式输出最后结果,提高准确度。(民主的投票表决比独裁的判断,犯错的概率要小很多!)训练方式:每棵树训练的时候,随机有放回地取全部数据的一部分进行学习。Why每次只取部分数据? 随机的本质,为防止数据相同导致所有树的判断结果类似,避免失去民主投票意义。参考深入浅出理解决策树算法(一)-核心思想深入浅出理解决策树算法(二)-ID3算法与C4.5算原创 2020-06-13 22:48:39 · 284 阅读 · 0 评论 -
分类(Classification)算法评估指标
混淆矩阵(Confusion Matrix):真实值,预测值,预测值和真实值之间的关系。True positive (TP) :图中的11,真实值为Positive,预测正确(预测值为Positive)True negative (TN):图中的00,真实值为Negative,预测正确(预测值为Negative)False positive (FP):图中的01,真实值为Negative,预测错误(预测值为Positive)False negative (FN):图中的10,真实值为Positiv原创 2020-06-13 22:36:37 · 1177 阅读 · 0 评论 -
SVM发展及算法介绍
一、几个概念二、SVM的发展三、SVM的算法四、SVM中DET及ROC曲线参考菜菜的scikit-learn课堂 — sklearn中的支持向量机SVMSVM:任意点到超平面的距离公式深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件学堂在线:数据挖掘:理论与算法,清华大学,袁博老师11565 P-R、ROC、DET 曲线及 AP、AUC 指标全解析(上)...原创 2020-06-13 22:10:09 · 1507 阅读 · 0 评论 -
GMM-EM算法
一、 GMM(高斯混合模型)本质:通过几个高斯的加权组合,描述某个变量x的分布(分类)情况(聚类算法)说明:同一个变量x,可以属于不同的高斯模型,每个模型对应的加权(也就是概率)是不一样的。公式二、EM(期望最大法)三、GMM-EM原理参考:高斯混合模型与EM算法的数学原理及应用实例学堂在线:数据挖掘:理论与算法,清华大学,袁博老师【机器学习】【白板推导系列】:EM算法&高斯混合模型从投币试验看EM算法...原创 2020-06-13 21:21:16 · 392 阅读 · 0 评论 -
机器学习简介
1、回归是用来处理连续的问题,分类用来处理分类的问题。从回归到分类,一般是通过激活函数f(x)的映射来实现,常用的激活函数有sigmoid函数,符号函数等,如下:2、线性分类是对未经处理的原始数据,进行完整的、全局的线性可分的处理。加工后的数据:特征选择数据进行分段讨论:决策树3、线性分类处理的都是线性可分的问题,根据分配的依据原则,可以分为软分类和硬分类两种。其中,硬分类是根据决策边界进行分类的,直接得到-1和1两类;软分类是根据概率值p(Y=1)和P(Y=-1)进行分类的,比较概率值的大小,.原创 2020-06-13 20:42:35 · 461 阅读 · 0 评论