
机器学习
akenseren
这个作者很懒,什么都没留下…
展开
-
tensorflow-gpu版本使用时报错,各种dll文件找不到
tensorflow-gpu版本使用时报错,各种dll文件找不到win10下python下载安装CUDA+tensorflow2.x使用gpu最好是“查看一下你的驱动版本号够不够,windows下一定要下载最低CUDA10.1的版本!之前下载CUDA10.0的卸载了吧。”如果已经下载了CUDA10.0 或者CUDA10.2,那就可能遇到下面这些找不到dll文件的问题。coreClock: 1.56GHz coreCount: 16 deviceMemorySize: 4.00GiB devic原创 2021-03-21 13:06:28 · 1841 阅读 · 0 评论 -
资料整理
Spark相关知识:1.spark机器学习算法研究和源码分析2.大数据相关:1.白话大数据与机器学习2.我是码农原创 2020-03-05 09:36:58 · 187 阅读 · 0 评论 -
机器学习模型持久化
博客资料汇总:(1)Apache Spark 2.0预览: 机器学习模型持久化(2)AI 开发者看过来,主流移动端深度学习框架大盘点(3)联合学习之安卓实现(4)TensorFlow Lite调研(5)Tensorflow 模型转 tflite ,在安卓端使用(6)移动端深度学习(7)模型压缩总览联合学习:(1)Google 研究 | 联合学习:...原创 2019-12-21 09:41:59 · 384 阅读 · 0 评论 -
机器学习特征选择方法
原文链接:点击打开链接3.特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。根据特征...转载 2018-06-26 16:38:47 · 5363 阅读 · 1 评论 -
线性判别分析(LDA)和 主成分分析(PCA)
原文链接:点击打开链接如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了。谈到LDA,就不得不谈谈PCA,PCA是一个和LDA非常相关的算法,从推导、求解、到算法最终的结果,都有着相当的相似。 本次的内容主要是以推导数学公式为主,都是从算法的物理意义出发,然后一步一步最终推导到最终的式子,LD...转载 2018-06-26 17:14:00 · 2531 阅读 · 0 评论 -
七招教你处理非平衡数据——避免得到一个“假”模型
原文链接:点击打开链接 这篇博客主要介绍处理不平衡数据的技巧,那么什么是不平衡数据呢?比如说一位医生做了一个病例对照研究,数据集由病例10人和对照990人组成,建立好一个逻辑回归模型后,并对建立的模型进行内部验证,居然发现其正确率高达99%,然后把他兴奋坏了,觉得可以将该成果发表到顶级期刊上,从此走上人生巅峰。然而,我们可以发现,该模型不管怎么预测,都能得到正常的结果,所谓的99%的正确...转载 2018-07-10 20:41:15 · 1573 阅读 · 0 评论 -
Windows下caffe安装详解(仅CPU)
原文链接:链接本文大多转载自 http://blog.youkuaiyun.com/guoyk1990/article/details/52909864,加入部分自己实战心得。1、环境:windows 7\VS20132、caffe-windows准备(1)下载官方caffe-windows并解压,将 .\windows\CommonSettings.props.example备份,并改名为C...转载 2018-08-30 14:57:55 · 7591 阅读 · 1 评论 -
Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)
原文链接:点击打开链接 1.单列运算在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:[python] view plain copydf['col2'] = df['col1'].map(lambda x: x**2) 其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:[python...转载 2018-06-16 11:18:26 · 35321 阅读 · 0 评论 -
pandas学习之——cumcount()
参考:点击打开链接一目了然:>>> df = pd.DataFrame([['a'], ['a'], ['a'], ['b'], ['b'], ['a']],... columns=['A'])>>> df A0 a1 a2 a3 b4 b5 a>>> df.gr...原创 2018-03-07 16:15:09 · 13747 阅读 · 8 评论 -
sklearn浅析(一)——sklearn的组织结构
原文传送门:sklearn浅析(一)——sklearn的组织结构 sklearn是基于numpy和scipy的一个机器学习算法库,设计的非常优雅,它让我们能够使用同样的接口来实现所有不同的算法调用。本文首先介绍下sklearn内的模块组织和算法类的顶层设计图。三大模块监督学习(supervised learning)1.neighbors:近邻算法 svm:支持向量机 ...转载 2018-03-01 17:58:06 · 506 阅读 · 0 评论 -
Sklearn包含的常用算法
原文传送门:Sklearn包含的常用算法 说明文章列出了Sklearn模块中常用的算法及调用方法,部分生僻的未列出(对我来说算生僻的),如果有写的不对的地方请指出。 参考资料来自sklearn官方网站:http://scikit-learn.org/stable/总的来说,Sklearn可实现的函数或功能可分为以下几个方面:分类算法 回归算法 聚类算法 降维算法 文本...转载 2018-03-01 17:56:28 · 2656 阅读 · 0 评论 -
Hessian矩阵正定与函数凹凸性的关系
1. 从矩阵变换的角度首先半正定矩阵定义为: 其中X 是向量,M 是变换矩阵我们换一个思路看这个问题,矩阵变换中,代表对向量 X进行变换,我们假设变换后的向量为Y,记做。于是半正定矩阵可以写成:这个是不是很熟悉呢? 他是两个向量的内积。 同时我们也有公式:||X||, ||Y||代表向量 X,Y的长度,是他们之间的夹角。 于是半正定矩阵意味着, 这下明白了么?正定、半正定...转载 2018-05-23 11:07:48 · 27914 阅读 · 0 评论 -
几种常用的特征选择方法
原文链接:点击打开链接特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己...转载 2018-06-26 15:55:50 · 19102 阅读 · 4 评论 -
常用激活函数的总结与比较
原文链接:点击打开链接 ,点击打开链接本文结构:什么是激活函数为什么要用都有什么sigmoid ,ReLU, softmax 的比较如何选择1. 什么是激活函数如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。2. 为什么要用如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是...转载 2018-06-25 23:04:45 · 4977 阅读 · 0 评论 -
优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam
1. SGDBatch Gradient Descent在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新:Θ=Θ−α⋅▽ΘJ(Θ)Θ=Θ−α⋅▽ΘJ(Θ)优点:cost fuction若为凸函数,能够保证收敛到全局最优值;若为非凸函数,能够收敛到局部最优值缺点:由于每轮迭代都需要在整个数据集上计...转载 2018-06-25 22:17:01 · 364 阅读 · 0 评论 -
机器学习基础:集成学习方法应用实验(RF、GBDT)
原文链接:机器学习基础:集成学习方法应用实验(RF、GBDT)集成学习正广泛地被应用于机器学习/数据挖掘的实际项目之中。掌握集成学习方法,了解其特性与适用场景,对机器学习理论与实践的结合帮助甚大。这里,我们考察集成学习最重要的两种类型:装袋(Bagging)与提升(Boosting),从其两大算法入手:Random Forest、GBDT,基于自己生成的数据集场景和UCI数据集开展实验,对比分析算...转载 2018-03-03 09:18:36 · 791 阅读 · 0 评论 -
XGBoost Lightgbm详细对比
原文链接:点击打开链接sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是:bagging基本思想独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树),然后综合他们的预测结果,通常集成模型的效果会优于基学习器,因为模型的方差有所降低。常见变体(按照样本采样方式的不同划分)Pasting...转载 2018-04-21 17:56:21 · 1345 阅读 · 0 评论 -
L1和L2正则
L1和L2的区别L1范数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 比如 向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|.简单总结一下就是: L1范数: 为x向量各个元素绝对值之和。 L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数 ...转载 2018-05-23 22:46:39 · 1235 阅读 · 0 评论 -
目标检测的图像特征提取之(一)HOG特征
原文链接:图像特征提取三大法宝:HOG特征,LBP特征,Haar特征(一)HOG特征1、HOG特征:方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要...转载 2018-06-05 11:43:40 · 263 阅读 · 0 评论 -
目标检测的图像特征提取之(二)LBP特征
原文链接:目标检测的图像特征提取之(二)LBP特征目标检测的图像特征提取之(二)LBP特征 LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和 D. Harwood 在1994年提出,用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征; ...转载 2018-06-05 15:14:04 · 238 阅读 · 0 评论 -
目标检测的图像特征提取之(三)Haar特征
原文链接:目标检测的图像特征提取之(三)Haar特征目标检测的图像特征提取之(三)Haar特征1、Haar-like特征 Haar-like特征最早是由Papageorgiou等应用于人脸表示,Viola和Jones在此基础上,使用3种类型4种形式的特征。Haar特征分为三类:边缘特征、线性特征、中心特征和对角线特征,组合成特征模板。特征模板内有白色和黑色两种矩形,并定义该模板的特征值...转载 2018-06-05 15:18:08 · 288 阅读 · 0 评论 -
自然语言处理中文本数值化表方法
自然语言处理中文本数值化表方法词向量是什么,自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化,NLP中大多是将文本表示为空间向量后再进行处理。离散表示: one-hot表示举例:语料库:John likes to watch movies. Mary likes too. John also likes to watch football games.由语料库得到...转载 2018-05-30 14:54:37 · 2203 阅读 · 0 评论 -
机器学习三大神器GBDT、XGBoost、LightGBM
原文链接:点击打开链接本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有...转载 2018-06-21 20:57:44 · 4363 阅读 · 1 评论 -
理解GB、GBDT、xgboost、lightGBM
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些。 1. Gradient boostin...转载 2018-06-22 16:57:56 · 739 阅读 · 1 评论 -
Boost算法(GDBT,AdaBoost,XGBoost)原理
原文链接:点击打开链接简单地来说,提升Boost就是指每一步都产生一个弱预测模型,然后加权累加到总模型中,然后每一步弱预测模型生成的的依据都是损失函数的负梯度方向,这样若干步以后就可以达到逼近损失函数局部最小值的目标。首先Boost肯定是一个加法模型,它是由若干个基函数及其权值乘积之和的累加,即其中b是基函数,beta是基函数的系数,这就是我们最终分类器的样子,现在的目标就是想办法使损失函数的期望...转载 2018-06-22 17:19:47 · 1584 阅读 · 0 评论 -
softmax相关概念
前言:很早在神经网络那里知识的时候知道,在多分类任务中,最后一层全连接层会用softmax层处理输出的y值,将输出变成一个概率分布,又说道在这里用交叉熵作为代价函数,,,,,,总之,就是概念混乱导致的一头雾水,看了好久也是云里雾里,后来终于看西瓜书仔细推导了一遍逻辑回归的公式,才似乎明白了,今天发现softmax回归这个东西,才算是有点小明白了(还不到大明白)。一下是copy来的正文(其中加了一些...原创 2018-06-02 16:52:27 · 2399 阅读 · 2 评论 -
AUC计算方法总结
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensi转载 2018-01-02 11:09:48 · 997 阅读 · 0 评论