
数据挖掘与机器学习
文章平均质量分 54
开开_王子
逆风的方向更适合飞翔,我不怕万人阻挡,只怕自己投降。
展开
-
python opencv获取视频基本信息
video_path = "./test0.mp4"video_capture = cv2.VideoCapture(video_path)video_FourCC = int(video_capture.get(cv2.CAP_PROP_FOURCC)) # 视频编码video_width = int(video_capture.get(3))video_height = int(vi...原创 2020-04-02 11:58:24 · 1979 阅读 · 0 评论 -
sklearn中模型构建、参数调优、模型验证等的使用
1、参数选择from sklearn.linear_model import LinearRegression, LogisticRegression # 线性模型from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier # 集成学习模型from sklearn.model_selection import...原创 2020-03-30 17:47:07 · 1985 阅读 · 0 评论 -
利用sklearn 计算 precision、recall、F1 score
精确度:precision,正确预测为正的,占全部预测为正的比例,TP / (TP+FP)召回率:recall,正确预测为正的,占全部实际为正的比例,TP / (TP+FN)F1-score:精确率和召回率的调和平均数,2 * precision*recall / (precision+recall)from sklearn.metrics import confusion_matrixf...原创 2019-11-25 14:54:52 · 11649 阅读 · 0 评论 -
bootstrap, boosting, bagging,randomforrrest 几种方法的区别与联系
Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2) 根据抽出的样本计算给定的统计原创 2017-10-13 14:55:57 · 300 阅读 · 0 评论 -
机器学习算法-k-means聚类算法
一、k-means原理 k-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集(x,y,z)。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚原创 2017-10-21 21:05:53 · 349 阅读 · 0 评论 -
机器学习算法-SVM
1、SVM原理 http://blog.youkuaiyun.com/alvine008/article/details/90971052、python实现#coding:gbk#coding:utf-8'''Created on 2016年6月5日@author: Administrator'''import numpy as npimport pylab as plfrom sklearn原创 2017-10-21 14:07:41 · 285 阅读 · 0 评论 -
特征缩减技术(shrinkage): lasso和岭回归
1、概述通过对损失函数(即优化目标)加入惩罚项,使得训练求解参数过程中会考虑到系数的大小,通过设置缩减系数(惩罚系数),会使得影响较小的特征的系数衰减到0,只保留重要的特征。常用的缩减系数方法有lasso(L1正则化),岭回归(L2正则化)。 关于L1,L2正则化讲解:http://blog.youkuaiyun.com/wsj998689aa/article/details/395477712、正则化的目的原创 2017-12-08 21:44:56 · 10654 阅读 · 1 评论 -
梯度下降算法与随机梯度下降
1、相关符号M 训练样本的数量 x 输入变量,又称特征 y 输出变量,又称目标 (x, y) 训练样本,对应监督学习的输入和输出 表示第i组的x 表示第i组的y h(x)表示对应算法的函数 θ是算法中的重要参数(向量) 表示参数为的函数,以下考虑线性回归,所以表述为:2、梯度下降算法用表示函数计算输出的结果,用y表示期望的输出值 则-y表示误差,若我们有m组训练样本,在训练过程中,原创 2017-11-26 13:10:48 · 491 阅读 · 0 评论 -
Python数据操作—词干与词形化
1、词干化 在自然语言处理领域,我们i经常会遇到两个或两个以上单词具有共同根源的情况。 例如,agreed, agreeing 和 agreeable这三个词具有相同的词根。 涉及任何这些词的搜索应该把它们当作是根词的同一个词。 因此将所有单词链接到它们的词根变得非常重要。在NLTK库中有一些方法来完成这个链接,并给出显示根词的输出。 以下程序使用Porter Stemming算法进行词干分析...原创 2018-08-06 22:44:10 · 3741 阅读 · 0 评论 -
主成成分分析-PCA
1、 问题描述 下表1是某些学生的语文、数学、物理、化学成绩统计: 首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。那么一眼就能看出来,数学、物理、化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数学成绩拉的最开)。为什么一眼能看出来?因为坐标轴选对了!下面再看一组学生的数学、物理、化学、语文、历史、英语成绩统计,见表2,还能不能一眼看出来原创 2017-08-15 10:07:17 · 1095 阅读 · 1 评论 -
机器学习算法-随机森林
1、原理随机森林(RandomForest), 指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次原创 2017-08-20 21:02:37 · 629 阅读 · 0 评论 -
机器学习算法—K-近邻(二)
KNN算法的思路在上一篇文章中已经提到,现在我们来看一下如何用python实现。1、需要导入的包import csvimport randomimport mathimport operatorfrom sklearn import neighbors2、加载数据集,并把它分为两部分:trainingSet与testSetdef loadDataset(filename,split,trai原创 2017-06-01 16:03:01 · 326 阅读 · 0 评论 -
机器学习算法—K-近邻(一)(KNN)
1、来源 最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是如果存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题,就产生了KNN算法。2、思路 KNN是通过测量不同特征值之间的距离进行分类。给一个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪一类K通常是不大于原创 2017-05-31 23:45:02 · 348 阅读 · 0 评论 -
《Deep Forest: Towards an Alternative to Deep Neural Networks》理解
当前的深度模型全部都是神经网络。这篇论文展示了如何构建深度森林(deep forest),为在许多任务中使用深度神经网络之外的方法打开了一扇门。原创 2017-06-13 23:46:43 · 5143 阅读 · 0 评论 -
特征值分解与奇异值分解含义
一、特征值分解 1、 矩阵乘法在介绍特征值与特征向量的几何意义之前,先介绍矩阵乘法的几何意义。矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度的新向量。在这个变化过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某些向量只发生伸缩变换,不产生旋转效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。比如:,它对应的线性变换是下面的形式形式:由于矩阵M是对称的,所以这个变换原创 2017-08-04 21:52:42 · 681 阅读 · 0 评论 -
机器学习算法—决策树应用
1、创建数据集def createDataSet(): dataSet=[[1,1,'yes'], [1,1,'yes'], [1,0,'no'], [0,1,'no'], [0,1,'no']] labels = ['no surfaceing','flippers'] retu原创 2017-05-31 22:34:33 · 408 阅读 · 0 评论 -
机器学习算法—决策树(Decision Tree)
1、什么是决策树(Decision Tree)? 决策树是一个类似于流程图的树结构,根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。2、构造决策树的方法 ① 信息熵 一条信息的信息量大小和它的不确定性有直接的关系,信息量的度量就等于不确定性的大原创 2017-05-30 21:10:33 · 515 阅读 · 0 评论 -
感知器分类算法
1、基本介绍 感知器学习算法是神经网络中的一个概念,单层感知器是最简单的神经网络,输入层和输出层直接相连。每一个输入端和其上的权值相乘,然后将这些乘积相加得到乘积和,这个结果与阈值相比较(一般为0),若大于阈值输出端就取1,反之,输出端取-1。2、权值更新 初始权重向量W=[0,0,0],更新公式W(i)=W(i)+ΔW(i);ΔW(i)=η*(y-y’)*X(i); η:学习率,介于[0,1原创 2017-05-21 23:29:57 · 2615 阅读 · 0 评论 -
稀疏表示与字典学习
1、问题—稀疏表示假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系数矩阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。 为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从而使学习任务得以简化,模型复杂度得原创 2017-08-02 15:57:26 · 1457 阅读 · 0 评论 -
几种常用的特征选择方法
http://www.voidcn.com/article/p-euemlmcd-ys.htmlscikit-learn中提供的几个例子: http://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection原创 2017-08-21 17:34:31 · 662 阅读 · 0 评论