
机器学习和数据挖掘
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
理解深度学习中的卷积
http://www.hankcs.com/ml/understanding-the-convolution-in-deep-learning.html译自Tim Dettmers的Understanding Convolution in Deep Learning。有太多的公开课、教程在反复传颂卷积神经网络的好,却都没有讲什么是“卷积”,似乎默认所有读者都有相关基础。这篇外文既友转载 2017-07-28 22:48:39 · 836 阅读 · 1 评论 -
Principles of training multi-layer neural network using backpropagation
The project describes teaching process of multi-layer neural network employing backpropagation algorithm. To illustrate this process the three layer neural network with two inputs and one output,which转载 2016-08-11 14:30:35 · 407 阅读 · 0 评论 -
Logistic Regression- Maximize Likelihood and Minimize Cost-Function
Probabilistic View: from activation function determine Error Function转载 2016-06-13 16:04:24 · 788 阅读 · 0 评论 -
coordinate descent
todo转载 2016-07-22 00:32:32 · 635 阅读 · 0 评论 -
SVM(三),支持向量机,线性不可分和核函数
我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩小,可见以前的模型对噪声非常敏感。再有甚转载 2016-07-31 23:18:28 · 618 阅读 · 0 评论 -
SVM(二)拉格朗日对偶问题
2 拉格朗日对偶(Lagrange duality) 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏转载 2016-07-31 22:46:28 · 606 阅读 · 0 评论 -
SVM(一) 问题的提出
SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料,目前关于SVM大约有3到4个版本,但在网上到处都是转载的内容,最后谁叶不知原稿人是谁。svm主要分有4个问题 1.问题的提出转载 2016-07-31 22:46:01 · 1015 阅读 · 0 评论 -
RNN,LSTM深度学习模型原理与应用
http://www.360doc.com/content/16/0320/16/1317564_543828788.shtml一,序列标注任务机器学习任务主要包含两大类。第一种属于模式识别范畴,认为所有的样本之间相互独立,可以直接将每个样本的特征输入机器学习模型进行训练,如逻辑回归,SVM,随机森林,稀疏自编码等模型;另一种属于序列任务,需要考虑样本之间的某种关联,如预测天气状况,很明显,今天的...转载 2016-08-03 19:43:22 · 11636 阅读 · 0 评论 -
关于NN以及BP的一些网络上整理的资料
BP算法浅谈(Error Back-propagation)http://blog.youkuaiyun.com/pennyliang/article/details/6695355 最近在打基础,大致都和向量有关,从比较基础的人工智能常用算法开始,以下是对BP算法研究的一个小节。 本文只是自我思路的整理,其中举了个例子,已经对一些难懂的地方做了解释,有兴趣恰转载 2016-08-03 19:42:42 · 2466 阅读 · 0 评论 -
Deep Learning(深度学习)学习笔记整理系列之(六)AutoEncoder自动编码器
Deep Learning(深度学习)学习笔记整理系列zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09作者:Zouxyversion 1.0 2013-04-08声明:1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参转载 2016-06-14 22:44:56 · 4207 阅读 · 0 评论 -
Deep Learning(深度学习)学习笔记整理系列之(七)Convolutional Neural Networks卷积神经网络
转处:http://blog.youkuaiyun.com/zouxy09/article/details/8781543/Deep Learning(深度学习)学习笔记整理系列zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09作者:Zouxyversion 1.0 2013-04-08声明:1)该Deep Le转载 2016-06-14 20:34:57 · 1919 阅读 · 0 评论 -
Deep Learning论文笔记之(一)K-means特征学习
转处:http://blog.youkuaiyun.com/zouxy09/article/details/9982495Deep Learning论文笔记之(一)K-means特征学习zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来转载 2016-06-14 19:57:31 · 534 阅读 · 0 评论 -
卷积神经网络
出自:http://blog.youkuaiyun.com/stdcoutzyx/article/details/41596663自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益转载 2016-06-13 23:45:12 · 489 阅读 · 0 评论 -
Non-Mathematical Feature Engineering techniques for Data Science
“Apply Machine Learning like the great engineer you are, not like the great Machine Learning expert you aren’t.”This is the first sentence in a Google-internal document I read about how to apply转载 2016-06-26 23:09:08 · 575 阅读 · 0 评论 -
什么是超参数
当参数时随机变量时,该参数分布中的参数就是超参数,简单的说就是参数的参数,感觉一般在贝叶斯方法中出现所谓超参数,就是机器学习模型里面的框架参数,比如聚类方法里面类的个数,或者话题模型里面话题的个数等等,都称为超参数。它们跟训练过程中学习的参数(权重)是不一样的,通常是手工设定,不断试错调整,或者对一系列穷举出来的参数组合一通枚举(叫做网格搜索)。深度学习和神经网络模型,有很多这转载 2016-06-04 16:50:05 · 33442 阅读 · 0 评论 -
【精彩】为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好?
作者:马超链接:https://www.zhihu.com/question/51818176/answer/127637712来源:知乎著作权归作者所有,转载请联系作者获得授权。这是一个非常好,也非常值得思考的问题。换一个方式来问这个问题:为什么基于 tree-ensemble 的机器学习方法,在实际的 kaggle 比赛中效果非常好?通常,解释一个机器学习模型的转载 2016-10-21 11:48:58 · 8894 阅读 · 0 评论 -
交叉熵代价函数
目录(?)[-]从方差代价函数说起交叉熵代价函数cross-entropy cost function总结还要说说log-likelihood cost本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方转载 2016-10-11 15:35:58 · 414 阅读 · 0 评论 -
交叉熵损失函数
香农熵 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多转载 2016-10-12 20:26:32 · 10803 阅读 · 0 评论 -
Data Augmentation & data Transfer Learning - TODO
TODO原创 2017-07-28 21:55:32 · 405 阅读 · 0 评论 -
揭秘Kaggle神器xgboost
http://geek.youkuaiyun.com/news/detail/201207XGBoost :eXtreme Gradient Boosting 项目地址:https://github.com/dmlc/xgboost是由 Tianqi Chen http://homes.cs.washington.edu/~tqchen/ 最初开发的实现可扩展,便携,分布式 gradi转载 2017-06-07 19:07:37 · 3538 阅读 · 0 评论 -
Bandit算法与推荐系统
https://mp.weixin.qq.com/s?__biz=MjM5NDQ3NTkwMA==&mid=2650142030&idx=1&sn=e638ab26cc6c36f41363dbbafb310e01&chksm=be866f5d89f1e64b77427d25f945c3660fee5a0bf5b02d7aa4f61afde1910aeb41b61da738b1&scene=0&ke转载 2017-06-06 19:18:34 · 3657 阅读 · 0 评论 -
[learning to rank]Learning to Rank之Ranking SVM 简介
排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法:PointWise,PairWise,ListWise。Ranking SVM算法是PointWise方法的一种,由R. Herbrich等人在2000提出, T.转载 2017-04-05 17:47:41 · 924 阅读 · 0 评论 -
[learning to rank]SVMrank——Support Vector Machine for Ranking(SVMrank——使用svm的排序)
转处:http://blog.youkuaiyun.com/u010454729/article/details/51037898preface:最近所忙的任务需要用到排序,同仁提到SVMrank这个工具,好像好强大的样纸,不过都快十年了,还有其他ranklib待了解。原文链接:SVMrank,百度搜索svm rank即可。SVMrank基于支持向量转载 2017-04-05 17:37:50 · 1527 阅读 · 0 评论 -
闲聊DNN CTR预估模型
转处:http://www.52cs.org/?p=1046作者:Kintocai, 北京大学硕士, 现就职于腾讯。伦敦大学张伟楠博士在携程深度学习Meetup[1]上分享了Talk《Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction in转载 2017-03-23 17:41:53 · 2039 阅读 · 0 评论 -
深入FFM原理与实践
http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlFM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使转载 2017-03-23 17:07:01 · 594 阅读 · 0 评论 -
隐因子分解机Factorization Machine
refer: https://my.oschina.net/keyven/blog/648747前言 Steffen Rendle于2012年提出FM模型,旨在解决稀疏矩阵下的特征组合问题。传统机器学习问题,一般仅考虑如何对特征赋予权重,而没有考虑特征间存在相互作用,FM模型的提出较好地解决了该问题。我在百度学术上搜索了FM模型的中文论文,发现只有少数几篇,中文博客也不转载 2017-03-23 13:39:26 · 807 阅读 · 0 评论 -
深度学习要多深,才能了解你的心?——DNN在搜索场景中的应用
DNN在搜索场景中的应用潜力,也许会比你想象的更大。1.背 景搜索排序的特征在于大量的使用了LR,GBDT,SVM等模型及其变种。我们主要在特征工程,建模的场景,目标采样等方面做了很细致的工作。但这些模型的瓶颈也非常的明显,尽管现在阿里集团内部的PS版本LR可以支持到50亿特征规模,400亿的样本,但这对于我们来说,看起来依然是不太够的,现在上亿的item数转载 2017-03-03 17:31:22 · 3031 阅读 · 0 评论 -
【深度学习Deep Learning】资料大全
Free Online BooksDeep Learning66 by Yoshua Bengio, Ian Goodfellow and Aaron CourvilleNeural Networks and Deep Learning42 by Michael NielsenDeep Learning27 by Microsoft ResearchDeep Learning Tu转载 2016-11-21 00:04:27 · 1660 阅读 · 0 评论 -
Deep Learning Papers Reading Roadmap
The roadmap is constructed in accordance with the following four guidelines:From outline to detailFrom old to state-of-the-artfrom generic to specific areasfocus on state-of-the-artYou will fi转载 2016-10-20 20:24:34 · 1786 阅读 · 0 评论 -
美团推荐算法实践
http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自转载 2016-10-18 20:27:55 · 854 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
1、背景CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种转载 2016-10-17 20:22:11 · 789 阅读 · 0 评论 -
优化算法——截断梯度法(TG)
目录(?)[-]一L1正则的表达形式convex-constraint formulationsoft-regularization二处理大数据的方法流式在线学习的流程随机梯度下降法三截断梯度法Truncated Gradient简单截断Simple coefficient RoundingL1-Regularized Subgradient次梯度截断梯度法转载 2016-10-12 20:27:59 · 1923 阅读 · 0 评论 -
Batch Normalization导读
转处:http://blog.youkuaiyun.com/malefactor/article/details/51476961#0-tsina-1-62851-397232819ff9a47a7b7e80a40613cfe1Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。目前几乎已经成为DL的标配了,任何有志于学习DL的同学们朋友们雷转载 2016-06-04 16:47:24 · 520 阅读 · 0 评论 -
各大公司广泛使用的在线学习算法FTRL详解
转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-转载 2016-06-25 17:41:28 · 1434 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据转载 2016-03-11 19:37:57 · 971 阅读 · 0 评论 -
坐标上升算法(Coordinate Ascent)及C++编程实现
编程实现:#include using namespace std;#define f(x1,x2,x3) (-x1*x1-2*x2*x2-3*x3*x3+2*x1*x2+2*x1*x3-4*x2*x3+6)int main(){ double x1=1; double x2=1; double x3=1; double f0=f(x1,x2,x3); double er转载 2014-03-26 17:55:49 · 929 阅读 · 0 评论 -
Maximum Entropy Models
refer to :http://www.zhizhihu.com/html/y2011/3489.html什么是熵?咱们这里只看信息以及自然界的熵吧。《Big Bang Theory》中Sheldon也经常把这个熵挂在嘴边。在咱们的生活中,你打碎了一块玻璃,或者洒落了一盒火柴,很自然的事情就是玻璃碎的一塌糊涂,根本没有规律可言。火柴也是,很乱,你难道从中找到规律么?规律是什么东西?规转载 2014-03-24 11:14:25 · 497 阅读 · 0 评论 -
Hadoop分布式环境下的数据抽样
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Had转载 2014-04-17 15:56:23 · 1009 阅读 · 0 评论 -
相似性度量(距离 相似系数)
转载: http://blog.sina.com.cn/s/blog_618985870101jmnp.html在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...y转载 2014-03-05 10:35:48 · 1635 阅读 · 0 评论 -
java中调用matlab代码
MATLAB的最新版本2006b中新添了一个产品-MATLAB Builder for Java。其实本来Matlab就有Java外部程序接口,不过原来的接口只能在.m文件中调用Java,而无法在Java程序中调用Matlab。 新的 Java Builder为我们在Java程序中调用Matlab丰富的数值计算资源提供了极大的便利。 与MATLAB对其他程序的外部接口相比,我觉转载 2012-07-17 17:48:20 · 823 阅读 · 0 评论