- 博客(80)
- 收藏
- 关注
转载 如何将二维数组赋值给vector
一维数组:vector a;int b[5] = {1,2,3,4,5};a.push_back(b);二维数组:b[5][6] = {1,2,3,4,5,6...27,28,29,30};如果a的长度给定了,即vector > a(5,vector(6));for(int i = 0; i
2016-11-11 08:13:00
6954
1
转载 谱聚类
如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点:和 K-medoids 类似,Spectr
2016-11-03 17:56:30
769
转载 谷歌怎样给搜索结果排序?
9 月 27 日谷歌推出新款doodle,庆祝自己 13 岁生日。在这个世界上,谷歌几乎无人不晓了。但鲜为人知的是,在13年前,拉里•佩奇( Larry Page )和谢尔盖•布林( Sergey Brin )正是依靠先进的算法发家并创立谷歌的。在这个世界上最自由和创新公司的生日里,来听听死理性派讲述它当年的数学故事吧。网页排名和谷歌算法的诞生一个正常的搜索引擎,其核心功能自然是网
2016-09-27 22:16:21
4169
转载 LIBSVM中的核函数及其参数
LIBSVM中的核函数及其参数在LIBSVM中-t用来指定核函数类型(默认值是2)。0)线性核函数1)多项式核函数2)RBF核函数3)sigmoid核函数4)自定义核函数常用的四种核函数对应的公式如下: 首先介绍下与核函数相对应的参数:1)对于线性核函数,没有专门需要设置的参数2)对于多项式核函数,有三个参数。-d用来
2016-09-22 00:50:02
2160
转载 SVM的两个参数 C 和 gamma
SVM的两个参数 C 和 gamma2015-11-06 13:15 159人阅读 评论(0) 收藏 举报 分类: 数据结构及算法(158) SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差
2016-09-22 00:44:33
2513
转载 常用算法整理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺
2016-09-20 13:14:10
1873
转载 机器学习算法需要注意的一些问题
机器学习算法需要注意的一些问题原文:http://blog.youkuaiyun.com/xmu_jupiter/article/details/47108523对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。1 数据不平衡问题这个问题是经常遇到的。就拿有监督的学习的二分类问题来
2016-09-20 12:59:45
1942
转载 朴素贝叶斯
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1方法概述学习(参数估计)实现:朴素贝叶斯下的文本分类模型概述朴素贝叶斯方法,是指朴素:特征条件独立贝叶斯:基于贝叶斯定理根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于
2016-09-18 22:37:28
537
转载 互联网广告综述之点击率特征工程
互联网广告综述之点击率特征工程一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大
2016-09-18 22:31:20
347
转载 机器学习与数据挖掘整理
http://blog.youkuaiyun.com/to_xidianhph_youth/article/details/39260705
2016-09-16 22:21:13
379
转载 svm基本原理
1. 支持向量机的关键技术是什么?答: 支持向量机性能的优劣主要取决于核函数的选取,所以对于一个实际问题而言,如何根据实际的数据模型选择合适的核函数从而构造SVM算法.目前比较成熟的核函数及其参数的选择都是人为的,根据经验来选取的,带有一定的随意性.在不同的问题领域,核函数应当具有不同的形式和参数,所以在选取时候应该将领域知识引入进来,但是目前还没有好的方法来解决核函数的选取问题.
2016-09-16 22:17:32
3115
转载 常见机器学习算法比较
摘要:机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验
2016-09-16 21:10:54
653
转载 CTR预估中GBDT与LR融合方案
CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问
2016-09-16 21:07:16
545
转载 聚类
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能
2016-09-16 14:56:51
1043
转载 短文本/Query分类算法特征选择
短文本/Query分类算法特征选择 最近工作中有一个project需要对query进行行业分类(label较多,大于1k),在以往的长文本中,一般使用文本的词向量结合tf-idf作为权重,分类的效果基本上还是非常不错。但是短文本,特征向量非常稀疏,一般一个 query只有1个或者几个特征,因而在覆盖率和准确率上将会大打折扣。本文的主要目的是对短文本的特征选择做一些尝试,语义特征主要分类
2016-09-16 10:12:15
3417
转载 文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中
2016-09-16 09:51:37
2229
转载 进程和线程关系及区别
1.定义进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.
2016-09-13 22:22:18
227
转载 文本分类入门
文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上
2016-09-13 17:50:13
568
转载 libsvm参数的意义
C是惩罚系数就是说你对误差的宽容度这个值越高,说明你越不能容忍出现误差gamma是你选择径向基函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布.
2016-09-09 08:31:18
476
转载 libsvm的使用方法及调参
LIBSVM使用方法及参数设置(转) (2014-04-22 13:54:41) 分类: 学习笔记原文地址:http://hi.baidu.com/yuanding232323/item/dee80e1a495c0b2bf6625c88 LIBSVM数据格式需要----------------------
2016-09-09 08:29:15
7331
1
转载 libsvm的使用方法
LIBSVM一般使用步骤、核函数简介及工具重点转载2015-04-10 16:52:01标签:libsvmeasy.pygrid.py核函数1.LIBSVM 使用的一般步骤 1)按照LIBSVM软件包所要求的格式准备数据集 2)对数据进行简单的缩放操作; 3)首要考虑选用RBF 核函数; 4)采用交叉验证选择最佳参数C(惩罚系数)
2016-09-09 00:00:53
857
转载 机器学习中的算法——决策树模型组合之随机森林与GBDT
前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。美国金融银行业的大数据算法:随机森林模型+综合模型模型组合(比如说有Boosting,Bagging等)与
2016-09-08 23:32:12
601
原创 SVM训练结果参数说明 训练参数说明 归一化加快速度和提升准确率 归一化还原
http://blog.sina.com.cn/s/blog_57a1cae80101bit5.html
2016-09-08 22:06:09
2836
转载 svm参数详解
vm参数说明----------------------如果你要输出类的概率,一定要有-b参数svm-train training_set_file model_filesvm-predict test_file model_fileoutput_file自动脚本:python easy.py train_data test_data自动选择最优参数,自动进
2016-09-08 21:57:45
3814
转载 CART剪枝
Decision Tree:CART、剪枝 决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除去上
2016-09-08 21:05:35
4796
原创 常用的机器学习算法优缺点
1决策树(Decision Trees)的优缺点决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、 能够同时处理数据型和常规型属性。其他的技术往
2016-09-08 11:49:11
1013
转载 信息增益(互信息)非负性证明
信息增益又称互信息,它是信息论的基本概念之一。同时,它在当今流行的人工智能领域也多有涉及。其中,著名的决策树算法IC3就是以信息增益作为贪心选择的依据。 信息增益的定义如下:
2016-09-03 21:53:05
8180
转载 从决策树学习谈到贝叶斯分类算法、EM、HMM
引言 最近在面试中(点击查看:我的个人简历,求职意向,择司标准),除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关聚类 & 分类算法的系列文章以作为自己备试之用,甚
2016-09-03 20:44:29
3025
转载 决策树
原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 如何预测先看看下面的数据表格:ID拥有房产(是
2016-09-03 20:40:51
514
转载 为什么要将连续特征离散化
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给
2016-08-31 19:33:32
3139
转载 广义线性模型
今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。 Contents 1.
2016-08-31 19:29:09
347
转载 机器学习他人面经
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺
2016-08-31 18:44:44
1127
转载 线性判别模型LDA<二>
4. 实例 将3维空间上的球体样本点投影到二维上,W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比: PCA选择样本点投影具有最大方差的方向,LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析,应该具有一定的预测功能,比如新来一个样例x,如何确定其类别?
2016-08-31 12:29:11
570
转载 线性判别分析(LDA)<->
线性判别分析(Linear Discriminant Analysis)(一)1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“stu
2016-08-31 12:26:50
511
转载 特征提取的方法
机器学习系列:(三)特征提取与处理 特征提取与处理 上一章案例中的解释变量都是数值,比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章,我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序列化,更是机器学习的基础,影响到本书的所有章节。 分类变量特征提取 许多机器学习问题都有分类的
2016-08-30 20:37:03
40028
转载 特征选择与特征降维的差别
在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。 对于这两个概念,很多初学者可能不是很清楚他们的区别。很多人都以为特征降维和特征选择的目的都是使数据的维数降低,所以以为它们是一样的,曾经我也这么以为,这个概念上的误区也就导致了我后面对问题的认识不够深入。后来得到老师的指点才彻底搞清楚了
2016-08-30 20:33:20
5954
转载 过拟合的解决方法2
过拟合的处理处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值)
2016-08-27 10:40:11
751
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人