
机器学习(Machine learning)
文章平均质量分 89
勤劳的凌菲
Try my best! Do myself~~
展开
-
机器学习中的数据不平衡解决方案大全
转自微信公众号:燕哥带你学算法(强力推荐),如若侵权,请联系博主删除在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。转载 2017-07-29 16:53:43 · 1161 阅读 · 0 评论 -
中文分词算法总结
转自:http://blog.youkuaiyun.com/yezi2413/article/details/3151783 中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。基于字符串匹配分词:机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最...转载 2017-09-07 10:42:58 · 2922 阅读 · 0 评论 -
ID3算法
PS:最近希望自己多拓宽一下知识面,所以看的较多,写的较少,就把看过的转载下来了转自:http://blog.youkuaiyun.com/acdreamers/article/details/44661149转载 2017-09-07 21:26:30 · 436 阅读 · 0 评论 -
集成学习
注:本文中各个算法的部分借鉴1 个体与集成集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。两种集成:1)集成中只包含同种类型的个体学习器,这样的集成是同质的,同质集成中的个体学习器被称为“基学习器”;2)集成中可包含不同类型的个体学习器,这样原创 2017-08-30 10:32:31 · 947 阅读 · 0 评论 -
聚类
PS:最近好懒,一丢丢都不想敲公式,所以本章就以核心思想及算法流程的思想来介绍了。1 聚类任务聚类是一种无监督的学习方式,试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster),每个簇可能对应于一些潜在的类别。聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。2 原型聚类原型聚类假设聚类结构能通过一组原型刻画,在现实聚类原创 2017-08-31 17:26:55 · 626 阅读 · 0 评论 -
基于密度的聚类方法
PS:重看一遍就有新的收获转自:燕哥带你学算法 (微信公众号)“The observation of and the search forsimilarities and differences are the basis of all human knowledge.” —— ALFREDB. NOBEL“人类所有知识的基础就是观察和寻找相似与相异” —— 阿转载 2017-09-11 15:25:39 · 2237 阅读 · 0 评论 -
机器学习中的数据预处理中的标准化(sklearn preprocessing)
转自:http://blog.youkuaiyun.com/csmqq/article/details/51461696Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like转载 2017-10-18 14:52:36 · 1479 阅读 · 0 评论 -
最近邻搜索值乘积量化(Product Quantization)
转自:http://blog.youkuaiyun.com/CHIERYU/article/details/50321473 和 http://blog.youkuaiyun.com/CHIERYU/article/details/50347735简介Product Quantizer是由Herv´e J´egou等人2011年在IEEEE上发表的论文《Product Qua转载 2017-10-18 17:05:59 · 1686 阅读 · 0 评论 -
bounding-box regression
转自:http://blog.youkuaiyun.com/elaine_bao/article/details/604690360. 引言在人脸检测算法如R-CNN、Fast RCNN中都用到了bounding box回归,回归的目标是使得预测的物体窗口向groundtruth窗口相接近。我一开始没理解如何能回归出一个框来,看完下文就理解了^^下文转载自:Fast转载 2017-10-20 17:37:54 · 452 阅读 · 0 评论 -
度量学习(metric learning)
转自:http://blog.youkuaiyun.com/nehemiah_li/article/details/44230053度量学习(Metric Learning)度量(Metric)的定义 在数学中,一个度量(或距离函数)是一个定义集合中元素之间距离的函数。一个具有度量的集合被称为度量空间。1 为什么要用度量学习?很多的算法越来越依赖于在输入空间给定转载 2017-10-20 17:48:01 · 15407 阅读 · 0 评论 -
Focal Loss学习笔记
转自:https://blog.youkuaiyun.com/qq_34564947/article/details/77200104Focal Loss for Dense Object Detection引入问题目前目标检测的框架一般分为两种:基于候选区域的two-stage的检测框架(比如fast r-cnn系列),基于回归的one-stage的检测框架(yolo,ssd这种),two-stage的效果...转载 2018-03-26 16:29:18 · 4170 阅读 · 0 评论 -
VC维
最近看到VC维,理解还是比较浅的,参考了http://blog.youkuaiyun.com/kunlong0909/article/details/14456713 大体的作用已了解,但是公式上还需要推导理解,以下内容为参考内容。转载 2017-09-07 10:28:06 · 401 阅读 · 0 评论 -
AdaBoost 算法原理及推导
转自微信公众号:燕哥带你学算法AdaBoost(Adaptive Boosting):自适应提升方法。1、AdaBoost算法介绍AdaBoost是Boosting方法中最优代表性的提升算法。该方法通过在每轮降低分对样例的权重,增加分错样例的权重,使得分类器在迭代过程中逐步改进,最终将所有分类器线性组合得到最终分类器,Boost算法框架如下图所示:图1.转载 2017-07-30 20:38:43 · 719 阅读 · 0 评论 -
神经网络
1 概念神经网络(neural networks, NN)是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交叉反应。 2 感知机与多层网络感知机(Perceptron)是由两层神经元组成的,输入层接受外界输入信号后传递给输出层,输出层是M-P神经元,输出,将也看作一个1的权重,则训练学习可统一为权重的学习。感知机的学习规则很简单,原创 2017-08-23 16:42:44 · 4783 阅读 · 0 评论 -
决策树
1 基本流程决策过程中提出的每个判定问题都是对某个属性的“测试”,每个测试的结果或是导出结论或是导出进一步的判定问题。决策树学习的目的就是产生一棵泛化能力强的决策树。2 划分选择决策树学习的关键是第8行,即如何选择最优划分属性。随着划分的不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越高越好。2.1 信息增益“信息熵”(inf...原创 2017-08-16 08:48:20 · 1046 阅读 · 0 评论 -
几种梯度下降法
机器学习中的参数优化算法中梯度下降法用的比较多,此处就转载了一篇写的通俗易懂的文章。转自:http://blog.youkuaiyun.com/zbc1090549839/article/details/38149561一、误差准则函数与随机梯度下降:数学一点将就是,对于给定的一个点集(X,Y),找到一条曲线或者曲面,对其进行拟合之。同时称X中的变量为特征(Feature),Y值为预测值。如图:转载 2017-08-10 16:31:29 · 683 阅读 · 0 评论 -
训练集和测试集的产生方法
最近,重新再学习一下机器学习的理论内容,学习书籍为周志华《机器学习》,为了帮助自己记忆和理解,把一些东西归纳总结。1 需要测试集的原因通常,我们可通过实验测试来对学习器的泛化能力进行评估并进而做出选择。为此,需使用一个“测试集”(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。当存在一个包含m个样例的原创 2017-08-03 20:26:28 · 14600 阅读 · 0 评论 -
深度学习入门
转自:燕哥带你学算法(微信公众号)引言 近几年来人工智能越来越火,大家都已经知道了AlphaGo的威力,然而在其背后,从技术层面来说,深度学习功不可没。那么深度学习到底是什么,其与传统的机器学习之间又有什么样的关联。对于想入坑深度学习的同学,又该从哪些方面入手。这就是本文要回答的问题。深度学习的提出原创 2017-08-13 16:35:51 · 1484 阅读 · 0 评论 -
对数几率回归
目的:利用线性回归时,输出的是实值,但要做的是分类任务该怎么办,答案就是线性模型的广义线性回归,即找到一个单调可微的函数将分类任务的真实标记和线性回归的预测值联系起来。如是二分类任务,其输出标记为,而线性回归的预测值为实值,我们需将实值转为0/1值,我们必然想到单位阶跃函数(unit-step function),若大于0就判为正例,小于0则判为反例,预测值为临界值为0则可任意判别。但原创 2017-08-13 21:36:11 · 4327 阅读 · 1 评论 -
线性判别分别(LDA)
这章敲了2个小时,结果浏览器崩溃,而草稿箱里也只保存了文章的一点(已哭。。。。),实在不愿意再重新敲一遍,所以这章就转载别人的博客了,望见谅。。。。转自:http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.html1 原理线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的线性...转载 2017-08-14 10:59:13 · 504 阅读 · 0 评论 -
多分类学习
1 基本思路多分类学习的基本思路是拆解法,即将多个二分类任务拆为若干个二分类任务求解。具体地就是,先对问题进行拆分,然后为每个拆分的二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。关键:多分类任务如何拆分。2 拆解法经典的为:“一对一”( One VS One, OvO)、“一对多”(One VS Rest, OvR)和“多对多”(Many原创 2017-08-15 10:55:13 · 1299 阅读 · 0 评论 -
线性模型
最近,准备将机器学习再重新捋一遍,为了加强自己的记忆,将看到的内容重新总结记录。学习材料为 周志华 《机器学习》。机器学习:1 线性模型1.1 线性回归在写线性回归之前,先写一下我之前的一个疑问(蠢蠢的问题),以便和我一样有此疑惑的童鞋进行参考。问题:回归和分类有什么区别?答:回归输出的为实值,原创 2017-08-10 11:27:14 · 511 阅读 · 0 评论 -
支持向量机(SVM)
1 间隔与支持向量机分类学习最基本的想法就是基于训练集在样本空间找到一个划分超平面,将不同类别的样本分开。划分超平面可以通过如下的线性方程来描述:(1)其中为法向量,决定了超平面的方向;为位移项,决定了超平面和原点之间的距离。样本空间中任意点到超平面的距离可写为:(2)令(3)如下图使得(3)等号成立的距离超平面最近的这几个训练样本点称为“支持向量”(sup原创 2017-08-25 15:42:51 · 2222 阅读 · 0 评论 -
贝叶斯分类器
今天因为其他工作没有完成,所以贝叶斯分类器就不写了,本文转自:http://www.cnblogs.com/phoenixzq/p/3539619.html朴素贝叶斯分类1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶转载 2017-08-27 20:07:37 · 475 阅读 · 0 评论 -
VC维理解
转自:https://blog.youkuaiyun.com/winper001/article/details/52863548在机器学习里我们常常看到这样的说法:一般而言, VC 维 越大, 学习能力就越强,学习也越复杂;可以通过 VC 维 计算学习风险的上界。但进一步对VC维的介绍却不多,例如,VC维是什么?如何计算VC维?我们认为2D线性分类器的VC维为3,而不是4。即,2D线性分类器可以打散集合大小...转载 2018-06-06 15:23:37 · 1523 阅读 · 1 评论