
机器学习——技术漫谈
文章平均质量分 51
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
台湾大学林轩田老师机器学习基石:内容简介
第一周:ML简介、ML与DM/AI/Statistics的区别第二周:perceptron线性分类器第三周:从输入特征、输出空间、label状况、学习方式四方面对ML进行分类第四周:PAC学习原理(尽量大的训练集D和有限的假设空间H)待续。。。原创 2016-02-18 23:41:36 · 3624 阅读 · 0 评论 -
台湾大学林轩田老师机器学习技法:内容简介
Each of the following items correspond to approximately one hour of video lecture.[以下的每個小項目對應到約一小時的線上課程]Embedding Numerous Features [嵌入大量的特徵]-- Linear Support Vector Machine [線性支持向量機]-- Dual S原创 2016-02-23 17:32:21 · 1608 阅读 · 0 评论 -
Linux下安装xgBoost
http://xgboost.readthedocs.org/en/latest/build.html#python-package-installation分两步:First build the shared library from the C++ codes (libxgboost.so for linux/osx andlibxgboost.dll for wi原创 2015-03-25 16:30:25 · 8588 阅读 · 2 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html?ca=drs-http://www.ibm.com/develop转载 2016-05-13 20:20:50 · 680 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html?ca=drs-http://www.ibm.com/dev转载 2016-05-13 20:22:29 · 629 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
在 IBM Bluemix 云平台上开发并部署您的下一个应用。开始您的试用智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clustering) 是一个转载 2016-05-13 20:24:38 · 1044 阅读 · 0 评论 -
实时路况分析:不同路段车速预测、推荐(距离、时间、路况)最优路径
转的,如果有问题,及时联系我删除。大雨临城,大数据给你最温暖的怀抱原创 2016-07-23 孙弋涵 烦躁的雨天北京持续多日的强降水终于结束,打开uber看到界面上的小船又重新回归熟悉的汽车,真是让人大松一口气。大雨下北京的优步打船要说暴雨这几天无论对于是坐公共交通系统上下班,还是打车或者开转载 2016-07-25 19:39:00 · 21504 阅读 · 9 评论 -
数据嗨客 | 第6期:不平衡数据处理
http://mp.weixin.qq.com/s?__biz=MzAwMzIxMjIyMg==&mid=2651005812&idx=1&sn=b9819f04cb2ee9af21f4011d34013824&scene=0写的挺好:常用的分类算法一般假设不同类的比例是均衡的,现实生活中经常遇到不平衡的数据集,比如广告点击预测(点击转化率一般都很小)、商品推荐(推转载 2016-06-20 15:52:21 · 11370 阅读 · 0 评论 -
导读ICML2016 - Learning Convolutional Neural Networks for Graphs
http://mp.weixin.qq.com/s?__biz=MzIxNzE2MTM4OA==&mid=2665642794&idx=1&sn=b11ec8699218d43bb7b404a4980bf82e&scene=25感觉方法挺好:论文引介 |Learning Convolutional Neural Networks for Graphs原创 201转载 2016-06-20 15:50:33 · 5383 阅读 · 12 评论 -
Which method should you use?
https://www.import.io/post/how-to-win-a-kaggle-competition/So, faced with a Kaggle competition, how should you spend your time? Should you do a lot of testing on which features affect转载 2016-08-07 08:43:03 · 548 阅读 · 0 评论 -
特征工程:数据科学家的秘密武器
http://www.cbdio.com/BigData/2016-08/15/content_5184977.htm导读:数据科学从业者们更倾向于选择用著名的算法来解决给定的问题。但仅仅靠算法并不能提供一个最优的解决方案,通过精心设计和选择的特征所建造的模型能够提供更好的结果。此篇作者总结了很多常见且有效的特征转化的方法,有些方法附有简单说明。具体的应用方法可以在网络上搜转载 2016-08-31 23:11:50 · 801 阅读 · 0 评论 -
model ensemble guide
http://mlwave.com/kaggle-ensembling-guide/这里有很多非常好的博客。Model ensembling is a very powerful technique to increase accuracy on a variety of ML tasks. In this article I will share my ens转载 2016-09-02 20:53:51 · 3177 阅读 · 0 评论 -
特征选择算法-Relief(转)
【转载】数据挖掘之—基于ReliefF和K-means算法的医学应用实例(转自: http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html) 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的转载 2016-10-10 18:10:58 · 3059 阅读 · 0 评论 -
特征选择, 经典三刀
感觉文章写的很好,故转过来,如有不当,请通知后马上删除。http://mp.weixin.qq.com/s?__biz=MzIzMDA1MTM3Mg==&mid=2653077415&idx=1&sn=5a036534000cb7566e78e0e315242fe2&chksm=f36f44e4c418cdf2c62936fb9213dbdb27241dd28f44521549a704379a转载 2016-11-28 20:48:44 · 33488 阅读 · 0 评论 -
大量机器学习(Machine Learning)&深度学习(Deep Learning)资料
http://dataunion.org/13920.html《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overv转载 2015-08-06 19:59:21 · 9502 阅读 · 3 评论 -
Bagging, Boosting, and Randomization对比
原始论文:An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and RandomizationThis paper compares the effectiveness of randomization, bagging原创 2016-05-04 18:44:35 · 715 阅读 · 0 评论 -
看过的较好的资源和待看的资源
网上的资源很多,本人只推荐看过的自认为较好的推荐给大家:机器学习基础:推荐:Tom Mitchell:http://book.douban.com/subject/1102235/ 中英文对照,了解该方向的专业名词,了解大概算法、思想。http://www.cs.cmu.edu/~tom/10701_sp11/CMU公开课,深入该领域必看。Andrew原创 2015-06-04 10:14:24 · 2006 阅读 · 0 评论 -
基于密度的聚类:DBSCAN(Density-based Spatial Clustering of Applications with Noise)
基于密度的聚类定义:1. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。2. 如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。3. 如果存在一条链,满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。转载 2016-02-23 16:20:37 · 1597 阅读 · 0 评论 -
深度学习的发展状况:发展史、三巨头、企业界、应用、存在的问题
图片来自北大研究生课程《深度学习技术与应用》,感谢李戈老师。发展史:三巨头:10年之后爆炸式发展的企业界:应用:图像、视频、语音;自然语言处理存在的问题:理论问题:建模问题:工程问题:应用:图像、原创 2015-03-25 15:55:33 · 3075 阅读 · 0 评论 -
如何区分新闻的核心词和龙套词
http://blog.sina.com.cn/s/blog_593af2a70101g3d4.html转载 2014-10-05 15:34:44 · 1122 阅读 · 0 评论 -
浅谈PCA 人脸识别
http://blog.youkuaiyun.com/silence1214/article/details/7991577前几天讨论班我讲了基于PCA的人脸识别,当时我自己其实也只是知道这个算法流程,然后基于该算法利用c++实现了,效果还不错。后来跟师兄一起讨论的时候,才发现这个PCA还是有相当深刻的意义。PCA的算法:矩阵C=AAT,A的每一列是一张人脸注(将一张人脸图片用一个转载 2015-05-26 09:36:31 · 1185 阅读 · 0 评论 -
利用【深度网络】高效提取feature
extracting features from a learned model, and add some new features yourself。原创 2015-08-11 20:34:50 · 1139 阅读 · 0 评论 -
the steps that may be taken to solve a feature selection problem:特征选择的步骤
参考:JMLR的paper《an introduction to variable and feature selection》we summarize the steps that may be taken to solve a feature selection problem in a check list:1. Do you have domain knowle原创 2015-08-12 20:14:48 · 1527 阅读 · 0 评论 -
机器学习实践中应避免的七种常见错误
http://dataunion.org/11624.html作者:Cheng-Tao Chu‘s LinkedIn在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数转载 2015-08-06 20:05:58 · 1394 阅读 · 0 评论 -
多文档自动文摘:Multi-Document Summarization,MDS
原创 2015-08-17 20:43:40 · 2584 阅读 · 0 评论 -
深度网络的层次组件:Perceptron、Auto-Encoder、Restricted Boltzmann Machine、Convolutional Neural Networks
前两天老大突然问了一个ladder network的问题,发现读文章时很多神经网络中的名词对应不上了,还是自己总结一下吧。Perceptron:要说起Perceptron,我们无疑要从线性分类器说起,它的特点就是简单和可计算性。对于那些线性可分得训练数据,我们当然能够找到一个线性分类器将所有数据正确分类。而对于非线性可分的数据,可以通过优化规则,设计出最优的线性分类器。原创 2015-12-18 10:10:48 · 2657 阅读 · 0 评论 -
python机器学习:从入门到精通
前段时间读了一篇文章,将如何使用python做机器学习,原文是http://dataunion.org/15057.html这里做一个简单总结,给没有思路的小伙伴一个方向。1)配置环境搜“Anaconda”2)学习基础知识http://www.codecademy.com/tracks/python目标:要对类和对象的含义有了解。特别学习:Lists(列原创 2016-01-21 23:04:43 · 3620 阅读 · 0 评论 -
Should I normalize/standardize/rescale the data
参考:http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html早上写了半篇博客,确实是半篇,提到了normalize/standardize/rescale feature,那么到底该不该normalize/standardize/rescale呢???简单总结一下这篇文章的观点(还是不翻译了吧,看原文更容易原创 2015-07-23 20:40:30 · 1829 阅读 · 0 评论 -
特征预处理:缺失值
1)直接丢掉2)属性均值/众数代替3)(类间)属性均值/众数代替;最常用4)用其他属性预测(贝叶斯、决策树);效果最好,较复杂。比如:先用其他属性来构建对该属性(利用已知的部分)的回归模型,然后对缺失的部分,使用该模型计算新值。原创 2015-03-25 16:51:33 · 1283 阅读 · 0 评论 -
腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向
GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向原创 2017-06-02 机器之心 机器之心机器之心整理演讲者:俞栋5 月 27-28 日,机器之心在北京顺利主办了第一届全球机器智能峰会(GMIS 2017),来自美国、加拿大、欧洲,香港及国内的众多顶级专家分享了精彩的主题演讲。在这篇文章中,机器之心整转载 2017-06-04 19:34:03 · 2360 阅读 · 0 评论