
机器学习
Lindsay.Lu丶
- find more, find yourself. -
展开
-
xgboost 训练大数据,内存不够 out of memory
如果要训练(测试)的样本很多,达到上百上千万,单机载入不了内存时,可以采用如下方法:1、生成libsvm文件 将要处理的数据分批(比如一次读10000行/个样本)读入内存,缺失值填充、特征过程等处理完毕之后,使用sklearn.datasets.dump_svmlight_file()将其转为libsvm数据格式保存到磁盘;libsvm格式也是每行一个样本,所以多个文件很容易合并(比如使用linux命令:cat file1>> file2)。2、构造xgb....原创 2020-08-31 12:16:51 · 2288 阅读 · 0 评论 -
从不同角度看机器学习的几种学习方式
从不同角度看机器学习的几种学习方式:1、在线学习与离线学习offline learning and online learning.In offline learning, the whole training data must be available at the time of model training. Only when training is completed can the model be used for predicting.In contrast, onli...原创 2020-08-31 12:14:42 · 720 阅读 · 0 评论 -
【DS】数据平滑处理——log1p()和exmp1()
今天在做题的时候学到了一点有用的东西,所以这里做个记录分享一下,有关数据预处理的两个函数问题——log1p、expm1优点:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果; 平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样...原创 2020-08-28 12:50:49 · 539 阅读 · 0 评论 -
多分类模型中的FN、FP怎么算?
根据定义:假阳性(FP): 实际为负,预测为正假阴性(FN): 实际为正,预测为负;对于二分类问题,这个比较清楚。但是对于多分类问题,我仍旧比较迷糊。比如:y_true = [0,1,2,0,1,2]y_pred = [0,2,1,0,0,1]此时:1. y_true中的1,2是否都算负类?2. 如果是,那针对0类,我的理解:TP为2,FP为1,先看预测正类的数目为3,其中2个猜对,1个猜错。3. FN应该为3,TN为0,因为预测有三个负类,但是都预测错了。多分类问题计算FP和FN你原创 2020-08-16 14:57:45 · 3206 阅读 · 1 评论 -
skearn 自定义转换器 [TransformerMixin, BaseEstimator, fit_transform, fit, transform]
自定义转换函器:创建一个类,实现fit()[return self]、transform()和fit_transform(),如果使用TransformerMixin作为基类,则自动实现fit_transform()函数,fit_transform() <==> fit().transform(),如果添加BaseEstimator作为基类,,注意此时__init__函数不能接受 ∗args∗args 和 ∗∗kwargs∗∗kwargs,还可以使用两个额外的方法(get_params()转载 2020-08-13 19:00:12 · 721 阅读 · 0 评论 -
机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)
1. 损失函数损失函数(Loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常用L(Y,f(x))来表示。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项,通常如下所示:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penaltyterm),它可以是L1,也可以是L2..原创 2020-08-04 15:14:25 · 735 阅读 · 0 评论 -
2019数据科学/人工智能比赛作品解决方案合集
目录1. Structured Data/ Time Series2019 CCF 乘用车细分市场销量预测2019 CCF 离散制造过程中典型工件的质量符合率预测2018 科大讯飞 AI 营销算法大赛2018 IJCAI 阿里妈妈搜索广告转化预测2018 腾讯广告算法大赛2017 腾讯广告算法大赛2018 高校大数据挑战...原创 2020-07-13 23:07:00 · 2965 阅读 · 0 评论 -
【深度学习论文】FaceNet: A Unified Embedding for Face Recognition and Clustering
0. 前言参考资料: FaceNet: A Unified Embedding for Face Recognition and Clustering - 原文 译文 其他参考博客: 优快云博客:【深度学习论文笔记】FaceNet: A Unified Embedding for Face Recognition and Clustering 优快云博客:Face...原创 2020-02-19 10:47:32 · 857 阅读 · 0 评论 -
fine-tuning: 利用已有模型训练其他数据集
另外添加了50层的ResNet进行fine-tuning,结果得到了进一步的提高,超越了SVM在这一数据集上的最佳performance(87%)---------------------------------------------------------------------------------------------------------------------------...转载 2020-02-01 14:29:08 · 1571 阅读 · 0 评论 -
如何通俗易懂地解释卷积?卷积为什么要旋转180度?
如何通俗易懂地解释卷积?知乎回答:https://www.zhihu.com/question/22298352/answer/228543288https://www.zhihu.com/question/22298352/answer/637156871卷积为什么要旋转180度?一看这个标题就会想,这有什么大惊小怪的,可能好多人觉得这是个脑残话题,但我确实误解了两三年...转载 2020-01-11 16:25:12 · 3384 阅读 · 0 评论 -
【可视化调参之DBSCAN】- 集成学习DBSCAN密度聚类算法详解和可视化调参
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和只适用于凸样本集的K-Means聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。DBSCAN一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,...原创 2019-12-15 23:33:53 · 7147 阅读 · 6 评论 -
图片标注问题image_caption
数据集:数据集中的训练集使用的是coco train 2014,82783张图片,测试集使用的是 val 2017 ,5000张图片,对应的caption是captions_train2014.json,和captions_val2017.json。该文件中是以字典的形式包含其内容信息,key值由“info”,”licenses“,”images“,”annotations“组成。info...原创 2019-11-06 14:46:36 · 1119 阅读 · 1 评论 -
一文搞懂深度学习正则化的L2范数
...转载 2019-10-11 13:47:38 · 1211 阅读 · 0 评论 -
DBSCAN聚类算法——基于密度的聚类方式(理论+图解+python代码)
一、DBSCAN聚类概述基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现“球形”聚簇的缺点。DBSCAN的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。1、伪代码算法: DBSCAN输入: E — 半径MinPts — 给定点在 E 领域内成为核心对象的最小领域点数D — ...转载 2019-10-10 10:08:14 · 23472 阅读 · 2 评论 -
【数据分析】pandas数据选取:df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]
1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。 Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式基本一致,本文主要以Dataframe为例进行介绍。 在Dataframe中选取数据大抵包括3中情况: 1)行(列)选取(单维度...原创 2019-10-08 22:25:50 · 1983 阅读 · 0 评论 -
【评分卡模型】特征重要度之WoE、IV、BadRate
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过...原创 2019-10-08 12:56:32 · 1355 阅读 · 0 评论 -
【ML】机器学习之线性回归过拟合问题的解决方案
在函数中加入一个正则项: 三种方式:一、Ridge回归(岭回归): 优点:具有较高的准确性、鲁棒性以及稳定性 缺点:求解速度慢二、Lasso回归: 优点:求解速度快(原理降维计算,把数据维度中存在的噪音和冗余去除) 缺点:相比Ridge回归没有较高的准确性、鲁棒性以及稳定性三、弹性网络: 特点:综合了以上两种回归算法的特性。计算效率以及鲁棒性兼备。几种回归解决拟合问题的综合比较:GIth...原创 2018-04-01 10:54:00 · 1300 阅读 · 0 评论 -
【ML】sklearn中, fit,fit_transform,transform的区别与联系
scikit-learn提供了一系列转换库,他们可以清洗,降维,提取特征等。在数据转换中有三个很重要的方法,fit,fit_transform,transformss=StandardScaler()X_train = ss.fit_transform(X_train)X_test = ss.transform(X_test)初学时候好奇为何,训练样本用fit_transfor...转载 2018-03-28 08:40:23 · 14882 阅读 · 4 评论 -
【python数据挖掘课程】逻辑回归LogisticRegression分析鸢尾花数据
一. 逻辑回归在前面讲述的回归模型中,处理的因变量都是数值型区间变量,建立的模型描述是因变量的期望与自变量之间的线性关系。比如常见的线性回归模型:而在采用回归模型分析实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量,比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标,判断一个人是否换糖尿病,Y=0表示未患病,Y=转载 2018-04-10 14:39:05 · 5106 阅读 · 1 评论 -
如何处理机器学习中的不平衡类别
原文地址:How to Handle Imbalanced Classes in Machine Learning原文作者:elitedatascience译文出自:掘金翻译计划本文永久链接:https://github.com/xitu/gold-miner/blob/master/TODO/how-to-handle-imbalanced-classes-in-machine-learning转载 2018-04-12 15:45:44 · 703 阅读 · 0 评论 -
感知机原理小结
感知机可以说是最古老的分类方法之一了,在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。因为研究透了感知机模型,学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型,再学习神经网络,深度学习,也是一个很好的起点。这里对感知机的原理做一个小结。1. 感知机模型 感知机的思想很简单,比如我们在一个平台上有很多的男孩女孩,感知转载 2018-05-04 14:34:06 · 490 阅读 · 0 评论 -
用MATLAB做聚类分析
近期工作关系用到Matlab做聚类分析。所谓聚类分析,其目的在于将研究的数据样本划分为不同类别。Matlab的统计工具箱提供了相应的分析工具。相关概念在网上可以找到不少资料,这里推荐两个博客供大家参考。 pluskid的漫谈Clustering 系列: http://blog.pluskid.org/?page_id=78赵扶风的层次聚类:http://hi.baidu.com/neu...转载 2018-08-06 00:55:11 · 3508 阅读 · 0 评论 -
K-means聚类最优k值的选取
以下博文转自:https://blog.youkuaiyun.com/qq_15738501/article/details/79036255 感谢 最近做了一个数据挖掘的项目,挖掘过程中用到了K-means聚类方法,但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数。为此,我查阅了大量资料和博...转载 2018-08-06 08:24:39 · 5046 阅读 · 0 评论 -
如何利用matlab做BP神经网络分析(利用matlab神经网络工具箱)
最近一段时间在研究如何利用预测其销量个数,在网上搜索了一下,发现了很多模型来预测,比如利用回归模型、时间序列模型,GM(1,1)模型,可是自己在结合实际的工作内容,发现这几种模型预测的精度不是很高,于是再在网上进行搜索,发现神经网络模型可以来预测,并且有很多是结合时间序列或者SVM(支持向量机)等组合模型来进行预测,本文结合实际数据,选取了常用的BP神经网络算法,其算法原理,因网上一大堆,所以...转载 2020-01-14 18:47:33 · 263663 阅读 · 71 评论 -
聚类分析中距离度量方法比较
聚类分析中如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。 如图(1)所示:假设X坐标轴为时间,Y坐标轴为繁殖率,则可以看出三种不同的物种在不同时间段的繁殖情况,由于分别在10,40,80三个数值附近,因此根据繁殖率...转载 2018-08-08 15:28:06 · 17703 阅读 · 0 评论 -
形态学运算——图像腐蚀与膨胀
结构元素设有两幅图象B,X。若X是被处理的对象,而B是用来处理X的,则称B为结构元素(structure element),又被形象地称做刷子。结构元素通常都是一些比较小的图象。腐蚀把结构元素B平移a后得到Ba,若Ba包含于X,我们记下这个a点,所有满足上述条件的a点组成的集合称做X被B腐...原创 2019-02-01 18:14:42 · 582 阅读 · 0 评论 -
[CNN]Youtube上迄今为止最好的卷积神经网络入门教程——笔记
最近在学CNN,大学的同学给我推了一个视频,感觉写得简单易懂,所以记了篇笔记。笔记差不多到视频17分钟左右,但基本把CNN的原理、结构都讲了一遍,而且个人感觉很好理解。笔记用很low的英文写的(也是为了四六级?)。我在本篇blog中加入了一些代码,帮助理解。如果我的理解有差错,请大家指出,谢谢。同时我还有超多不理解的地方。。https://www.bilibili.com/video/...转载 2019-02-01 18:25:43 · 1254 阅读 · 0 评论 -
Harris角点检测原理
关于角点的应用在图像处理上比较广泛,如图像匹配(FPM特征点匹配)、相机标定等。网上也有很多博客对Harris角点检测原理进行描述,但基本上只是描述了算法流程,而其中相关细节并未作出解释,这里我想对有些地方做出补充说明,正所谓知其然知其所以然,如有不对,还望指正。1. 何为角点?下面有两幅不同视角的图像,通过找出对应的角点进行匹配。再看下图所示,放大图像的两处角点...转载 2019-02-19 14:07:47 · 275 阅读 · 0 评论 -
多尺度与多分辨率的理解
我一开始以为&nbsp; 多尺度与多分辨率 &nbsp;是一样的意思。后来看到了xiaowei_cqu博客的一篇文章“【OpenCV】SIFT原理与源码分析:DoG尺度空间构造”(以下简称,xiaowei一文),才发现我的理解有误。尺度空间(scale space)理论要理解多尺度,首先要知道什么是尺度空间。xiaowei一文中提到...转载 2019-02-21 09:07:02 · 853 阅读 · 0 评论 -
python时间序列ARIMA的实现及原理(预测茅台股票数据)
ARIMA模型由(AR模型 I差分 MA模型)三部分组合而成。这里我使用scipy库的方法来简单实现,其中的底层代码就不再累述。当然也可以使用ARMA模型,由于ARMA模型需要...转载 2019-09-06 13:03:25 · 3711 阅读 · 1 评论 -
【大规模图像检索的利器】Deep哈希算法介绍
作者:程程链接:https://zhuanlan.zhihu.com/p/21396173来源:知乎前言在最近邻搜索(nearest neighbor search)问题中,给定一个查询(query),目标是要找到空间中离它最近的点。这里所说的空间可以是任意的空间,比如特征空间,或者语义空间。具体来说,在图像检索这个问题中,每张图像对应空间中的一个点,而所谓的“近”既可以是外观上的近(看着像),也...转载 2018-03-12 09:55:09 · 1786 阅读 · 1 评论