
机器学习
文章平均质量分 79
Bryan__
17年硕士毕业入职腾讯,工作4年晋升至T11
研究生期间多次参加国内外数据挖掘竞赛,累计获得10次top3;
ijcai-2017冠军,kddcup-2017季军,ijcai-2018亚军;
工作方向:大规模搜索推荐,算法与架构开发
展开
-
使用sql快速计算AUC&gAUC
原理我就不细说了,通过一次排序就可以计算出auc整体计算select (ry - 0.5*n1*(n1+1))/n0/n1 as aucfrom( select sum(if(y=0, 1, 0)) as n0, --50 sum(if(y=1, 1, 0)) as n1,--100 sum(if(y=1, r, 0)) as ry --100 from( select y, row_number() ove...原创 2022-05-27 18:30:04 · 2532 阅读 · 0 评论 -
数据挖掘/机器学习/算法岗2017校招面试总结
目前就职于腾讯,想内推朋友可以发我简历(校招/社招都要),邮箱384375530@qq.com,注明岗位和工作城市。这个岗位叫法很多,算法岗,数据挖掘岗,机器学习岗,基础研究等等,总结一下从16年9月校招的面试情况。百度:师姐给我内推的,一面聊了2个半小时,基本在写代码。用MapReduce写好友推荐,在一堆单词里面找出现次数最多的k个;设计一个栈,O(1)时间返回最值;求多叉树深...原创 2016-09-26 19:09:26 · 59127 阅读 · 66 评论 -
数据挖掘领域十大经典算法
原址:http://blog.youkuaiyun.com/v_july_v/article/details/6142146转载 2014-11-07 21:25:32 · 1731 阅读 · 0 评论 -
主动学习,半监督学习,直推学习
在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,非监督学习:直接对输入数据转载 2015-01-05 19:14:18 · 2818 阅读 · 0 评论 -
对机器学习的理解
机器学习(MachineLearning),在我看来就是让机器学习人思维的过程。机器学习的宗旨就是让机器学会“人识别事物的方法”,我们希望人从事物中了解到的东西和机器从事物中了解到的东西一样,这就是机器学习的过程。在机器学习中有一个很经典的问题:“假设有一张色彩丰富的油画,画中画了一片茂密的森林,在森林远处的一棵歪脖树上,有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置,正常情况下不到转载 2015-01-05 21:59:10 · 2634 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个转载 2015-01-06 23:54:37 · 1154 阅读 · 0 评论 -
常见主动学习算法
来源:http://blog.sina.com.cn/s/blog_4c98b96001000959.html按照对未标注数据的选择策略,可以把当前的主动学习算法大致分为两类 (1)基于评委的方法 (committee-based methods)首先用各种不同的学习器对样本进行标注,然后由标注人员对有争议的标注结果作出最终判断。不同的学习器之间的分歧是由它们对样本标注结果预转载 2015-03-08 18:45:32 · 7506 阅读 · 0 评论 -
随机森林
http://www.cnblogs.com/wentingtu/archive/2011/12/13/2286212.html基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial,与Info原创 2015-04-02 22:14:23 · 1268 阅读 · 2 评论 -
十三种常用的数据挖掘的技术
来源:http://www.itongji.cn/article/041G9592013.html一、前 沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descripti转载 2015-04-03 11:25:33 · 15427 阅读 · 0 评论 -
数据挖掘几个入门级的算法的总结(优缺点)
监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络非监督学习算法的代表有聚类算法和特征矩阵可以从以下几个方面来比较算法:1.支持增量式训练:在收录新的数据后能自行调整,修正判断,提高准确率而不需要重新训练2.特征组合:能够响应特征组合,作出更精确的判断3.是否是黑盒技术:指算法的中间转载 2014-11-03 00:14:55 · 1960 阅读 · 0 评论 -
模型融合
参考:台大机器学习技法 http://blog.youkuaiyun.com/lho2010/article/details/42927287 stacking&blending http://heamy.readthedocs.io/en/latest/usage.html1.stacking&blendingblending:比如数据分成train和test,对于mo...原创 2016-04-23 23:44:00 · 16920 阅读 · 10 评论 -
利用GBDT模型构造新特征
实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单,就是先用已有特征训练GBDT模型,然后利用GBDT原创 2016-06-27 16:20:48 · 13846 阅读 · 7 评论 -
机器学习降维方法
特征降维方法包括:Lasso,PCA,小波分析,LDA,奇异值分解SVD,拉普拉斯特征映射,SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap。1. LASSO通过参数缩减达到降维的目的。LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996)) 该方法是一种压缩估计原创 2016-09-09 16:21:17 · 5463 阅读 · 0 评论 -
[天池竞赛系列] 历届天池竞赛答辩PPT和视频
1、阿里移动推荐算法: 答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2、资金流入流出预测: 答辩视频:https://space.dingtalk.com/c/gQHOEnXi6w 3、阿里移动推荐&资金流入流出预测答辩PPT下载: https://tianchi.shuju.aliyun.com/mini/reply.htm?spm=原创 2017-03-23 21:01:11 · 12773 阅读 · 6 评论 -
收藏一些非常不错的学习资源
scikit-learn技术专栏结构之法,编程之道苍老师的gitwepon的git雪伦的博客:机器学习算法原理及实现专栏RDD操作,shuffle和持久化Kaggle Competition Past Solutions当我们在谈论数据挖掘CS231n机器学习课程李困困整理的原创 2017-07-06 20:31:20 · 3082 阅读 · 1 评论 -
python计算稀疏表示的TF-IDF
使用sklean的计算方法,这种结果是稠密矩阵,如果数据集太大,计算结果将会占满内存,或者直接报MemeryError的错误。tfidf详细计算参考:https://blog.youkuaiyun.com/Eastmount/article/details/50323063import jieba import jieba.posseg as pseg import os import ...原创 2018-04-02 20:47:20 · 4229 阅读 · 4 评论 -
基于sklearn同时处理连续特征和离散特征
核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大# coding=utf-8# @author: bryanfrom skle...原创 2018-04-12 12:10:42 · 7552 阅读 · 2 评论 -
使用spark scala计算信息熵,信息增益,信息增益率
找了下,没找到现成的代码,自己写了个,速度还能接受,可以用来做简单的特征选择import org.apache.spark.rdd.RDDclass FeatureSelect { //信息熵 def entropyRDD(data:RDD[String])={ val size=data.count() val p=data.map(x=>(x,1)).r...原创 2018-10-30 20:40:27 · 2811 阅读 · 2 评论 -
案例:基于大数据的餐饮公司会员营销及O2O应用策略
来源:软件定义世界主讲嘉宾:龚光宇,上海一茶一坐餐饮有限公司CIO&CMO,来自台湾,24年IT工作经验,2004年加入上海一茶一坐餐饮有限公司任CIO,2012年兼任CMO,2011年IT经理世界中国优秀CIO,2011年ITValue最具价值CIO。大家好,我是一茶一坐龚光宇,很高兴有机会在这个群里跟大家分享,有关我们近两年做的一些会员经营及O2O案例。希望大家不吝指教。转载 2015-04-03 11:32:07 · 3567 阅读 · 0 评论 -
深入浅出谈数据挖掘——数据挖掘主要解决的四类问题
数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:1、分类问题分类问题属于预测性的问题,但是它跟普通预测问题的转载 2015-04-16 14:19:19 · 4071 阅读 · 0 评论 -
深入FFM原理与实践
转自:http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlFM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FF原创 2017-07-06 20:18:22 · 1721 阅读 · 2 评论 -
机器学习&深度学习资料
原文地址:https://github.com/ty4z2008/Qix/blob/master/dl.md《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Lear原创 2016-08-29 09:45:06 · 1978 阅读 · 0 评论 -
线性回归中的最小二乘法,L1,L2推导
原创 2016-08-28 00:15:59 · 4537 阅读 · 2 评论 -
Random Forest和Gradient Tree Boosting如何调参
作者:城东链接:https://www.zhihu.com/question/34470160/answer/114305935来源:知乎著作权归作者所有,转载请联系作者获得授权。使用sklearn进行集成学习——实践系列《使用sklearn进行集成学习——理论》《使用sklearn进行集成学习——实践》目录1 Random Forest和Gradient原创 2016-08-02 00:39:22 · 8211 阅读 · 1 评论 -
机器学习算法比较
本文主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验原创 2016-07-25 18:39:37 · 5050 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征...原创 2016-06-07 22:51:32 · 79891 阅读 · 18 评论 -
SVM参数详解
svm参数说明----------------------如果你要输出类的概率,一定要有-b参数svm-train training_set_file model_filesvm-predict test_file model_fileoutput_file自动脚本:python easy.py train_data test_data自动选择最优参数,自动原创 2016-05-26 14:02:40 · 86550 阅读 · 6 评论 -
机器学习-损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是 经验风险函数 的核心部分,也是 结构风险函数 重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,原创 2016-05-06 15:34:44 · 3927 阅读 · 1 评论 -
python sklearn 分类算法简单调用
scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:[python] view plain copyclassifiers = {'NB':naive_bayes_classifier, 'KNN原创 2016-05-01 00:58:27 · 20507 阅读 · 14 评论 -
L1 L2正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。最小化loss的同时,让w也最小化,L1可能会有部分w为0,L2会让部分w很小但不是为0L1 regularization(lasso)在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值的和,乘以λ/nL2 regularization(权重衰减)(...原创 2016-05-01 00:10:28 · 3371 阅读 · 0 评论 -
一些常用python预处理方法
转载自:http://2hwp.com/2016/02/03/data-preprocessing/常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化转载 2016-04-23 23:05:39 · 14721 阅读 · 0 评论 -
windows 下配置java版xgboost
在windows下配置java版的xgboost原创 2016-04-01 14:30:53 · 7320 阅读 · 7 评论 -
windows安装python和xgboost
(建议先装anacoda自带了很多包)1.下载releaseshttps://github.com/dmlc/xgboost/releases2.解压后用vs编译,打开windows文件里的sln,选择releases,X64,生成。如果是 全部重新生成: 成功 3 个,失败 0 个原创 2016-03-21 21:25:47 · 2749 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据转载 2015-08-05 10:28:15 · 3355 阅读 · 0 评论 -
SPSS主成分分析
从相关矩阵表中可知许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。通过方差分解主成分提取分析表可知, 提取了2个主成分。从成分矩阵表给出了在这2个主成分上的负荷值。根据在每个因子上负荷最高的那些变量来说明主成分的意义。 由于每一个载荷量表示主成分与对应变量的相关系数,所以新变量的表达不能从输出窗口中直接得到,要用成分矩阵表中的数据除以主成分相对应的特征值开平方根原创 2015-06-11 15:47:46 · 6428 阅读 · 0 评论 -
KNN分类器及实现
出处:http://blog.youkuaiyun.com/zhongkejingwang/article/details/44132771 KNN即K-Nearest Neighbor,是数据挖掘中一种最简单的分类方法,即要判断某一个样本属于已知样本种类中的哪一类时,通过计算找出所有样本中与测试样本最近或者最相似的K个样本,统计这K个样本中哪一种类最多则把测试样本归位该类。如何衡量两个样本的转载 2015-06-01 21:47:44 · 2870 阅读 · 0 评论 -
主成分分析(PCA)原理及推导
来源:http://blog.youkuaiyun.com/zhongkejingwang/article/details/42264479 什么是PCA? 在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、SVD、转载 2015-06-01 21:37:18 · 1663 阅读 · 0 评论 -
大杀器xgboost指南
之前做了一个视频,从基础的决策树到xgboost,再到代码实现,以及python接口,有兴趣的可以去看看https://class.pkbigdata.com/#/classDetail/forum/5本文不做深入探讨,仅供自己备忘原文:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboo...原创 2016-07-28 16:08:55 · 30563 阅读 · 0 评论