
Machine Learning
0x12A2A7F
探索数据宇宙.
展开
-
分享Spark MLlib训练的广告点击率预测模型
2015年,全球互联网广告营收接近600亿美元,比2014年增长了近20%。多家互联网巨头都依赖于广告营收,如谷歌,百度,Facebook,互联网新贵们也都开始试水广告业,如Snapchat, Pinterest, Spotify.作为互联网广告的老大哥,谷歌花了很大的力气研发自己的社交网络,Google+,并期待能与Facebook,Twitter抗衡。然后事与愿违,Google+的转载 2017-01-14 14:05:41 · 6151 阅读 · 0 评论 -
AI 自动研发机器学习系统,DeepMind 让算法学习强化学习
人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包括伯克利让算法自我优化、MIT自动生成神经网络架构,以及在这方面走得最远的 DeepMind 让算法“学习强化学习”。2011年硅谷最有影响的技术投资人 Marc Andreessen 一篇“Why Software Is Eating The W转载 2017-01-24 22:33:21 · 5067 阅读 · 0 评论 -
R资源大全
0.前言 虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过。。。直到 直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和爬一些R的资料,看着看着就入迷了,这就是个大宝库了,以前怎么没发现,看来还是太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,对比了目前自己的工作和以后的方向,非常转载 2017-02-22 21:49:15 · 8520 阅读 · 0 评论 -
随机梯度下降
梯度下降算法其实也很好理解,以简单的二元函数为例,如果我们想找到二元函数的极值,一般第一步我们是对该二元函数求导,然后令其为0,找出此时自变量的值,将该自变量代入函数式,即可求出该函数的极值。随机梯度下降算法是为了解决深度学习中多元目标函数的最优值问题,已经有很多该算法的变种算法。那么在深度学习中,针对实际问题,我们首先需要建立一个模型,然后确定一个目标函数。目标函数通常是网络输出转载 2017-05-01 11:39:02 · 5410 阅读 · 0 评论 -
K最近邻算法
设想你想了解一个陌生人的饮食风格,如果你对他所知无几,那么最容易想到的一个捷径就是看看他生存的周围人群的口味。但是如果你对他的信息知道更多,例如知道他的年龄、收入等,那么这个时候就最好从他周围的人群中去挑选与他年龄、收入相近的人的饮食风格,这样预测会更准确一点。这其中蕴含的算法就是最近邻算法。最近邻算法的思想很简单,”距离“相近的事物总会具有更多的共性。其中涉及的数学知识并不深厚。转载 2017-05-01 11:43:21 · 1521 阅读 · 0 评论 -
K-Means集群算法
无论什么数据集,理论上都可以形成一定数量的集群。例如,党我们拿到学生成绩表时,我们可以把成绩分数划分为优(90分左右)、良(80分左右)、中(70分左右)、差(60分及以下)。再例如对于工人工资表,我们也可以把工人按照工资划分成一定数量的集群,每个集群一定是围绕某个工资水平的。甚至我们可以抓取所有微信公众文章,将文章标题映射为向量表示(假设没有那些标题党文章的话),我们就可转载 2017-05-01 11:51:36 · 3413 阅读 · 0 评论 -
决策树(Decision Tree)
决策树算法是一种基于决策的预测算法,顾名思义,每一个决策相当于一棵树的枝干,而每个枝干都会导向一个决策结果。决策树其实可以分为分类树和回归树,分类树是指输出每个样本的类别,而回归树是指输出数值结果,这里我们只讨论分类树。在应用中,决策树通常是基于一套规则去将数据分门别类。在一个数据集中,决策树算法会利用每一个样本的属性变量,并确定哪一个属性是最重要的,然后给出一系列决策去最优地将数转载 2017-05-01 11:54:57 · 746 阅读 · 0 评论 -
Bagging,Random Forests以及Boosting
前面讲到,决策树(决策树(Decision Tree))可以用来解决分类或回归问题,它们统称为分类回归树(Classification and Regression Tree,CART)。并且,分类回归树有一个显著的缺点,那就是对噪音十分敏感,稍微改变数据,树的形状很有可能发生较大的改变。为了防止分类回归树陷入过拟合,我们有一系列改善措施来提高树的性能,常见的有Bagging和Random转载 2017-05-01 11:59:30 · 1311 阅读 · 0 评论 -
美团DSP广告策略实践
前言近年来,在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果,占有的比重逐年升高。DSP(Demand-Side Platform)[1]作为需求方平台,通过广告交易平台(AdExchange)[2]对每次曝光进行竞价尝试。对于AdExchange的每次竞价请求,DSP根据Cookie Mapping [3]或者设备信息,尝试把正在浏览媒体网站、App的用户映转载 2017-05-09 14:30:14 · 2342 阅读 · 1 评论 -
基于机器学习方法的POI品类推荐算法
前言在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。机器学习解决问题的一般过程:本文转载 2017-05-09 14:46:13 · 632 阅读 · 0 评论 -
美团推荐算法实践
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词转载 2017-05-09 14:56:39 · 743 阅读 · 1 评论 -
预测异常报警模型实践
一、前言外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示):周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响,呈现整体的上涨或下降。订单量转载 2017-05-09 16:22:22 · 11689 阅读 · 0 评论 -
支持向量机(一):支持向量机的公式推导(Support Vector Machine,SVM)
转:https://www.cnblogs.com/pursued-deer/p/7857306.html1 认识向量机支持向量机是处理数据分类问题,目的是学会一个二分类的函数模型,属于监督式学习的方法,被广泛应用于统计分类和回归分析。通过建立一个超平面对样本数据进行分类,超平面涉及到凸优化及核函数的应用,而对于怎么找到最优的超平面就是这部分要讲的内容。2 线性分类假设数据样本集是...转载 2018-12-27 10:28:03 · 691 阅读 · 0 评论 -
支持向量机(二):SMO算法
转:http://www.cnblogs.com/pursued-deer/p/7857783.html1 SMO算法的概念这里补充一点,后面的K () 函数是核函数,是把低维度的数据投射到高维度中,即把非线性转换成线性分类。知道k 是核函数就可以了,后面会再详细讲解k 函数。我们在上篇中得到关于对偶因子的式子,对其求 α 极大,现在添加符号转化成求极小,两者等价。转化后的目标函数...转载 2018-12-27 10:30:07 · 472 阅读 · 0 评论 -
支持向量机(三):核函数和KKT条件的理解
转:http://www.cnblogs.com/pursued-deer/p/7858122.html1 核函数1.1 核函数的定义设χ是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从χ到Η的映射 φ(x): χ→Η使得对所有的x,z∈χ,函数Κ(x,z)=φ(x)∙φ(z), 则称Κ(x,z)为核函数,φ(x)为映射函数,φ(x)∙φ(z)为x...转载 2018-12-27 10:31:24 · 810 阅读 · 0 评论 -
支持向量机(四):支持向量机的Python语言实现
转:http://www.cnblogs.com/pursued-deer/p/7892342.html1 数据样本集的介绍这篇文章是根据《机器学习实战》一书的实例进行代码的详细解读,我在查找这方面的资料没有人对支持向量机算法 python 实现的详细说明,我就把我在看代码时的思路和代码详细注解。如果存在不足,欢迎给我留言相互探讨。好了,废话不多说,正文开始。。。首先我们使用的数据是二...转载 2018-12-27 10:43:39 · 694 阅读 · 0 评论 -
Recurrent Neural Networks Tutorial, Part 2 – Implementing a RNN with Python, Numpy and Theano
Code to follow along is on Github.In this part we will implement a full Recurrent Neural Network from scratch using Python and optimize our implementation using Theano, a library to perform operati...转载 2019-01-24 17:00:01 · 544 阅读 · 0 评论 -
Recurrent Neural Networks Tutorial, Part 3 – Backpropagation Through Time and Vanishing Gradients
This the third part of the Recurrent Neural Network Tutorial.In the previous part of the tutorial we implemented a RNN from scratch, but didn’t go into detail on how Backpropagation Through Time (BP...转载 2019-01-24 17:02:38 · 484 阅读 · 0 评论 -
Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano
The code for this post is on Github. This is part 4, the last part of the Recurrent Neural Network Tutorial. The previous parts are:Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs...转载 2019-01-24 17:10:09 · 526 阅读 · 0 评论 -
第一章 简介
本书为斯坦福吴恩达教授的在 coursera 上的机器学习公开课的知识笔记,涵盖了大部分课上涉及到的知识点和内容。本书的章节安排与课程对应关系为:斯坦福课程 本书章节 Week 2 线性回归 Week 3 逻辑回归 Week 4-5 神经网络 Week 6 算法分析与优化 Week 7 SVM(支持向量机) Week 8 K...转载 2019-01-31 16:38:36 · 200 阅读 · 0 评论 -
第二章 第一节 线性回归(回归问题)
假定我们现有一大批数据,包含房屋的面积和对应面积的房价信息,如果我们能得到房屋面积与房屋价格间的关系,那么,给定一个房屋时,我们只要知道其面积,就能大致推测出其价格了。上面的问题还可以被描述为:“OK,我具备了很多关于房屋面积及其对应售价的知识(数据),再通过一定的学习,当面对新的房屋面积时,我不再对其定价感到束手无策”。通常,这类预测问题可以用回归模型(regression)进行...转载 2019-01-31 16:38:50 · 329 阅读 · 0 评论 -
第二章 第二节 线性回归(线性回归与梯度下降)
转载 2019-01-31 16:39:04 · 256 阅读 · 0 评论 -
第二章 第三节 线性回归(程序示例--梯度下降)
回归模块回归模块中提供了批量梯度下降和随机梯度下降两种学习策略来训练模型:# coding: utf-8# linear_regression/regression.pyimport numpy as npimport matplotlib as pltimport timedef exeTime(func): """ 耗时计算装饰器 """ def ...转载 2019-01-31 16:39:17 · 396 阅读 · 0 评论 -
第二章 第四节 线性回归(正规方程)
转载 2019-01-31 16:39:50 · 387 阅读 · 0 评论 -
第二章 第五节 线性回归(特征缩放)
特征缩放引子在前一章节中,对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价。下面,我们有这样一组训练样本:房屋面积(英尺) 卧室数量(间) 售价(美元) 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 23...转载 2019-01-31 16:40:03 · 691 阅读 · 0 评论 -
第二章 第六节 线性回归(多项式回归)
转载 2019-01-31 16:40:24 · 310 阅读 · 0 评论 -
第二章 第七节 线性回归(程序示例--多项式回归)
程序示例--多项式回归下面,我们有一组温度(temperature)和实验产出量(yield)训练样本,该数据由博客 Polynomial Regression Examples 所提供:temperature yield 50 3.3 50 2.8 50 2.9 70 2.3 70 2.6 70 2.1 80 2...转载 2019-01-31 16:40:39 · 553 阅读 · 0 评论 -
第二章 第八节 线性回归(欠拟合与过拟合)
欠拟合与过拟合问题在上一节中,我们利用多项式回归获得更加准确的拟合曲线,实现了对训练数据更好的拟合。然而,我们也发现,过渡地对训练数据拟合也会丢失信息规律。首先,引出两个概念: 欠拟合(underfitting):拟合程度不高,数据距离拟合曲线较远,如下左图所示。 过拟合(overfitting):过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律,如下右图所示,房价随着...转载 2019-01-31 16:40:49 · 396 阅读 · 0 评论 -
第二章 第九节 线性回归(程序示例--局部加权线性回归)
程序示例--局部加权线性回归现在,我们在回归中又添加了 JLwr() 方法用于计算预测代价,以及 lwr() 方法用于完成局部加权线性回归:# coding: utf-8# linear_regression/regression.py# ...def JLwr(theta, X, y, x, c): """局部加权线性回归的代价函数计算式 Args: ...转载 2019-01-31 16:40:59 · 399 阅读 · 0 评论 -
第三章 第一节 逻辑回归(0/1 分类问题)
转载 2019-02-13 16:06:21 · 1410 阅读 · 0 评论 -
第三章 第二节 逻辑回归
转载 2019-02-13 16:06:32 · 202 阅读 · 0 评论 -
第三章 第三节 逻辑回归(利用正规化解决过拟合问题)
转载 2019-02-13 16:06:40 · 504 阅读 · 0 评论 -
第三章 第四节 逻辑回归(程序示例--线性决策边界)
程序示例--线性决策边界回归模块在逻辑回归模块 logical_regression.py 中,实现了批量梯度下降法(bgd)以及随机梯度下降法(sgd),同时,支持正规化方程# coding: utf-8# logical_regression/logical_regression.pyimport numpy as npimport matplotlib as pltim...转载 2019-02-13 16:06:53 · 536 阅读 · 0 评论 -
第三章 第五节 逻辑回归(程序示例--非线性决策边界)
程序示例--非线性决策边界我们首先对数据进行了多项式拟合,再分别使用 λ=0,λ=1,λ=100λ=0,λ=1,λ=100 的批量梯度下降法(sgd)完成了训练,获得了非线性决策边界:# coding: utf-8# logical_regression/test_non_linear_boundry.pyimport numpy as npimport logical_regre...转载 2019-02-13 16:06:59 · 772 阅读 · 0 评论 -
第三章 第六节 逻辑回归(多分类问题)
转载 2019-02-13 16:07:06 · 344 阅读 · 0 评论 -
第三章 第七节 逻辑回归(程序示例--多分类问题)
程序示例--多分类问题我们采用 One-vs-All 方法来进行多分类,在原有的逻辑回归模块中添加 One-vs-All 的训练以及预测方法:# coding: utf-8# logical_regression/logical_regression.py# ...def oneVsAll(X, y, options): """One-vs-All 多分类 A...转载 2019-02-13 16:07:16 · 542 阅读 · 0 评论 -
第四章 第一节 神经网络 (再论 0/1 分类问题)
转载 2019-02-25 11:09:01 · 519 阅读 · 0 评论 -
第四章 第二节 神经网络(神经网络概述)
神经网络概述人体神经元模型神经元的可以分为四个区域:接收区(receptive zone):树突接收到输入信息。 触发区(trigger zone):位于轴突和细胞体交接的地方,决定是否产生神经冲动。 传导区(conducting zone):由轴突进行神经冲动的传递。 输出区(output zone):神经冲动的目的就是要让神经末梢,突触的神经递质或电力释出,才能影响下一个...转载 2019-02-25 11:09:17 · 510 阅读 · 0 评论 -
第四章 第三节 神经网络(前向传播与反向传播)
转载 2019-02-25 11:09:31 · 290 阅读 · 0 评论 -
第四章 第四节 神经网络(参数展开(Unrolling Parameters))
matlab 中还原:Theta1 = reshape(thetaVec(1:110),10,11)Theta2 = reshape(thetaVec(111:220),10,11)Theta3 = reshape(thetaVec(221:231),1,11)python 中还原:import numpy as np# ...Theta1 = thetaVec[0:...转载 2019-03-20 16:53:06 · 697 阅读 · 0 评论