
Machine learning
aihaly
这个作者很懒,什么都没留下…
展开
-
流形的简单知识
1简介流形(manifold)是指局部具有欧氏空间性质的空间,是欧氏空间中的曲线、曲面等概念的推广。欧氏就是最简单的流形的实例。地球表面这样的球面则是一个稍微复杂的例子。一般的流形可以通过把许多平直的片折弯并粘结而成。 例如,人们曾经以为地球是平的。这是因为相对于地球来说,人类实在太小,平常看到的地面是地球表面微小的一部分。 像旅行的时候,会用平面的地图来指示方位。如果将整转载 2014-12-15 19:58:20 · 2012 阅读 · 0 评论 -
梯度下降(Gradient descent)
1、线性回归 线性回归假设特征和结果满足线性关系。其实线性关系的的表达能力还是比较强大的,每个特征对结果的影响强弱可以通过其权重体现,同时每个特征变量可以首先映射到一个函数,然后再参加线性计算。 有以下的函数: 函数中的xi表示的是特征里面的分量,表示的是映射x->y函数中的参数(权重)。转载 2014-12-15 20:34:17 · 582 阅读 · 0 评论 -
如何把机器学习“做大”
“大数据”无疑是当今行业内最热门的话题,尤其是大数据与机器学习的结合,给予计算机前所未有的判断能力和预测能力。机器学习通过数据来训练模型,数据样本越大,机器学习就可以训练出越复杂的模型,进而做出更准确的判别与预测。大数据与机器学习的结合,已经在信息检索、广告计算、个性化推荐等诸多领域展现出其强大的威力。大数据与机器学习理想的情况下,数据越大,机器学习可以训练越复杂的模型,模型的能力转载 2014-12-23 16:27:48 · 774 阅读 · 0 评论 -
王益:分布式机器学习的故事
从毕业加入Google开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是任何一个有价值的机器学习思路,都值得拥有自己独特的架构。所以重点在有一个分布式操作系统,方便大家开发自己需要的架构(框架),来支持相应的算法。如果你关注大数据,听完我说的故转载 2014-12-23 19:42:49 · 1085 阅读 · 0 评论 -
机器学习和分布式并行计算大家Leslie Valiant获得2010年图灵奖
ACM网站刚刚发布消息,出生于英国的理论计算科学家、哈佛大学教授Leslie Valiant因为“对众多计算理论(包括PAC学习、枚举复杂性、代数计算和并行与分布式计算)所做的变革性的贡献”而获得最新一届计算机科学最高荣誉——图灵奖。ACM的颁奖词高度评价了Valiant教授30多年对理论计算科学的基础性贡献: 他的工作开辟了新领域,推出了独创的新概念,并提供了转载 2014-12-24 10:56:36 · 1277 阅读 · 0 评论 -
耐基梅隆大学教授邢波:Petuum,大数据分布式机器学习平台
2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与优快云共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。 2014中国大数据技术大会首日全转载 2014-12-24 11:00:53 · 1279 阅读 · 0 评论 -
what are some macine learning algorithms that you should always have a strong understanding of and
this airtcle is wrote by Sean Owen,Director ,Data Science @ClouderaI think one needs to have a competent knowledge of 1-2 techniques in:RegressionClassificationClusteringCollaborative filteri转载 2014-12-24 20:34:29 · 560 阅读 · 0 评论 -
Deep Learning: Doubly Easy and Doubly Powerful with GraphLab Create
Note: Many of the code snippets can take a very long time without GPU speedup. Please install the GPU version of GraphLab Create to follow along. One of machine learning’s core goals is clas转载 2015-01-13 18:43:31 · 1248 阅读 · 0 评论 -
VC的一些理解
vc维就是一个系数,这个系数就是为了度量一组函数集的容量(capacity)。注意这里的“函数”是广义的,线性函数、多项式函数当然都是函数;对于一个多层的神经网络,权值大小不知道(训练神经元网络就是为了确定权值),每组权值就可以认为对应一个函数。而容量就反映了一组函数集对样本的区分能力,容量越大,对应的一组函数集区分能力就越大;注意容量的大小跟这组函数集自由参数的多少是没有必然联系的(不确信这转载 2015-02-09 11:02:10 · 505 阅读 · 0 评论 -
机器学习资源大全
本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。通用机器学习MLPackDLibecog原创 2015-02-07 14:02:40 · 700 阅读 · 0 评论 -
VC Dimension
VC dimension (for Vapnik Chervonenkis dimension) (Vapnik and Chervonenkis (1968, 1971), Vapnik (1979)) measures the capacity of a hypothesis space. Capacity is a measure of complexity and measures the转载 2015-02-07 17:32:28 · 3290 阅读 · 0 评论 -
奇异值分解(We Recommend a Singular Value Decomposition)
原文作者:David Austin原文链接: http://www.ams.org/samplings/feature-column/fcarc-svd译者:richardsun(孙振龙)在这篇文章中,我们以几何的视角去观察矩阵奇异值分解的过程,并且列举一些奇异值分解的应用。介绍矩阵奇异值分解是本科数学课程中的必学部分,但往往被大家忽略。这个分解除了很直观,更重要的原创 2015-01-04 16:20:20 · 833 阅读 · 0 评论 -
机器学习处理图片数据并识别图片情感
罗切斯特大学的研究者,通过训练使计算机能够消化图片数据,并识别图片背后隐藏的情感。他们认为这是图片分类问题。通过抓取海量数据,让计算机根据算法定义图片可能表达的情绪标签,之后依靠人类群体智慧帮助计算机识别其中最好的标签,最终,计算机逐步学习如果定义照片的情绪。Log on to Twitter, Facebook or other social media and you will f原创 2015-03-08 16:50:58 · 3699 阅读 · 0 评论 -
How to Learn a Machine Learning Algorithm by Jason Brownlee on January 11, 2014 in Uncategorized
The question of how to learn a machine learning algorithm has come up a few times on the email list. In this post I’ll share with you the strategy I have been using for years to learn and build up a原创 2015-03-29 10:46:44 · 1368 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的转载 2015-03-29 10:54:21 · 429 阅读 · 0 评论 -
机器学习的11个开源项目
机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。在这样的背景下, InfoWorld近日公布了机器学习领域11个最受欢迎的开源项目,这11个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关转载 2015-03-29 11:06:58 · 611 阅读 · 0 评论 -
机器学习期刊会议
机器学习的最新研究成果会发表在不同领域的会议和期刊上。机器学习专门的期刊有Machine Learning(机器学习)和Journal of Machine Learning Research(机器学习研究)。以神经网络为主的期刊有Neural Computation(神经计算)、Neural Networks(神经网络)以及IEEE Transactions on Neural Networks转载 2015-03-29 11:10:56 · 3090 阅读 · 0 评论 -
几种监督式学习算法的比较
摘要:Kevin Markham为General Assembly讲授数据科学课程,在SlideRule指导学生学习数据科学,还是约翰·霍普金斯大学数据科学Coursera专项课程的社区教学助理,日前他撰文谈及了几种监督式学习算法的比较,值得一看。【编者按】本文的作者是计算机工程师Kevin Markham;热衷烹饪,痴迷戏剧,偶尔参加铁人三项运动;为 General Assembly转载 2015-03-29 13:18:23 · 1507 阅读 · 0 评论 -
谷歌科学家、Hinton亲传弟子Ilya Sutskever的深度学习综述及实际建议
注:本文是Ilya Sutskever受邀给Yisong Yue博客写的文章。原文在Yisong Yue博客上:http://yyue.blogspot.com/2015/01/a-brief-overview-of-deep-learning.html 由于blogspot被墙,为方便读者,特转来墙内。A Brief Overview of Deep Learning原创 2015-03-29 13:20:31 · 769 阅读 · 0 评论 -
泛化能力
原创 2015-03-29 10:35:06 · 980 阅读 · 0 评论 -
成为数据科学家并不难
几个菜鸟程序员在Coursera上免费注册学习了几天“机器学习”课程后,赢下了Kaggle预测模型建模大赛。企业界在IT业制造的大数据人才恐慌(麦肯锡是始作俑者)中纷纷提高了对大数据和高级分析人才的期待和要求,数据科学家也一夜之间成为最性感的职业,其光环直追体育明星。数据科学家被描绘成神一般的人物,他们通晓数学、计算、社会学、物理学等各学科知识,同时又洞察世事,深谙企业运作之道,存世数量堪转载 2015-03-29 10:44:23 · 586 阅读 · 0 评论 -
矩阵知识点-求导
这几天由于用到矩阵求导相关的知识,但是自己没有学过矩阵论(研究生选课的时候,导师没有让选),于是百度了下,觉得完整的相关资料不多,还好发现了下面的这篇博客,给我了很大的帮助! 仔细分析了下博客中的内容,其实矩阵求导也是挺好理解的(估计是我有较好的MATLAB使用基础吧),下面看帖吧,哈哈!! 矩阵求导 属于 矩阵计算,应该查找 Matrix Calculus 的文献原创 2015-03-29 10:52:55 · 659 阅读 · 0 评论 -
广义拉格朗日函数的理解
为了求如下约束最优问题:引入广义拉格朗日函数:先需要证明:网上有的博文对(4)式的证明不容易看懂,我证明如下:首先将 记作函数。1)如果,由于可以取任意大,因此这时函数不可能取得最小值。因此函数只有在时才可能取得最小值。2)如果, =,因此(4)式两边等价。转载 2015-03-24 10:14:15 · 1372 阅读 · 0 评论 -
对话机器学习大神Yoshua Bengio(上)
Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。他是仅存的几个仍然全身心投入在学术界的深度学习教授之一,好多其他教授早已投身于工业界,加入了谷歌或Facebook公司。原创 2015-03-29 13:29:02 · 813 阅读 · 0 评论 -
归一化
1、数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果。然而除非对这些算法有丰富的使用经验,否则预处理的精确参数并非显而易见。 提示:当我们开始处理数据时,首先要做的事是观察数据并获知其特性。本部分将介绍一些通用的技术,在实际中应该针对具体数据选择合适的预处理技术。例如一种标准的预处理方法是对每一个数据点都减去它的均值(也被称为移原创 2014-12-12 17:24:28 · 2865 阅读 · 0 评论 -
逻辑斯蒂判别式(Logistic discrimination)
原创 2015-03-30 11:23:29 · 1635 阅读 · 0 评论 -
The EM Algorithm(EM算法)
1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机变量,那么 特别地,如果f是严转载 2015-04-03 20:47:17 · 428 阅读 · 0 评论 -
【Python】Numpy扩充数组函数之repeat和tile用法
用repeat和tile扩充数组元素,例如>>> import numpy as np>>> np.arange(10)array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>>> a = np.arange(10)>>> aarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>>> a.repeat(5)array([0,原创 2015-04-10 10:08:13 · 1047 阅读 · 0 评论 -
python 常用库下载地址
scipy:http://sourceforge.net/projects/scipy/?source=recommendednumpy:http://sourceforge.net/projects/numpy/?source=recommendedmatplotlib :http://sourceforge.net/projects/matplotlib/?source=rec原创 2015-04-10 11:11:27 · 1245 阅读 · 0 评论 -
python中的sum函数.sum(axis=1)
看起来挺简单的样子,但是在给sum函数中加入参数。sum(a,axis=0)或者是.sum(axis=1) 就有点不解了在我实验以后发现 我们平时用的sum应该是默认的axis=0 就是普通的相加 而当加入axis=1以后就是将一个矩阵的每一行向量相加例如:import numpy as npnp.sum([[0,1,2],[2,1,3],axis=1)原创 2015-04-10 14:35:53 · 814 阅读 · 0 评论 -
python给模块添加路径
1. 搜索路径在Python中搜索路径有点像C++的项目路径的感觉,Python中的sys.path便是搜索的总的路径集,你需要用到的文件都应该在这个路径里可以找到。-- 添加默认搜索路径:可以暂时加入路径也可以永久加入。 暂时加入路径可以在每次代码上添加:import syssys.path.append(’D:/WorkSpaces/Python/Tes原创 2015-04-10 17:20:48 · 7009 阅读 · 0 评论 -
朴素贝叶斯方法
前言 朴素贝叶斯(NaïveBayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先是基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯方法实现简单,学习与预测的效率都很高,是一种常用的方法。1.1朴素贝叶斯的学习与分类1.1.1基本方法原创 2015-04-17 10:42:57 · 2852 阅读 · 0 评论 -
关于凸优化的一些简单概念
没有系统学过数学优化,但是机器学习中又常用到这些工具和技巧,机器学习中最常见的优化当属凸优化了,这些可以参考Ng的教学资料:http://cs229.stanford.edu/section/cs229-cvxopt.pdf,从中我们可以大致了解到一些凸优化的概念,比如凸集,凸函数,凸优化问题,线性规划,二次规划,二次约束二次规划,半正定规划等,从而对凸优化问题有个初步的认识。以下是几个重要相关概转载 2015-04-06 22:10:10 · 656 阅读 · 0 评论 -
python package numpy和scipy 的安装与配置
关于最早要用这个GAT——genomic association tester,最早怕要追溯到去年的这个时候了,安装一直搞不定,后来也就放下没有再用。因为是用python写的,要安装python以及一系列的package,我几度放弃几度磨叽,今天终于算是半搞定,说是半搞定,因为在安装SciPy的过程有好多warning,不知道未来跑大的dataset是否会出问题,而且目前只是在我笔记本上wubi安转载 2015-04-11 09:58:15 · 956 阅读 · 0 评论 -
简单的文本相似性测量(Python实现)
一、数据集与测试集数据集:测试集:imaging databases二、Python代码# -*- coding: utf-8 -*-"""Created on Mon Apr 13 09:49:25 2015@author: Administrator"""import numpyimport sysimport scipy as sp impo原创 2015-04-19 23:07:12 · 925 阅读 · 0 评论 -
看DeepMind如何用Reinforcement learning玩游戏
说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和RL)。这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现。DeepMind工作人员合两者之精髓,在Stella模拟机上让机器自己玩了7个Atari 2600的游戏,结果是玩的冲出美洲,走向世界,超越了物种的局限。不仅战胜了其他机器人,甚至在其中3个游戏中超越转载 2015-04-07 11:35:05 · 1518 阅读 · 0 评论 -
python中pickle模块学习
在python中有一个pickle的标准模块,这个模块可以把几乎python中所有类型通过模块转换成pickle所能识别的格式进行存储。 pickel模块主要有两个函数dump()和load() dump()可以把数据对象以特定的格式保存在指定的文件中 语法: pickle.dump(obj,file) load()是从文件中提取已经经过pickle序原创 2015-04-13 22:20:09 · 769 阅读 · 0 评论 -
python矩阵运算
第一次看见Python的运行感觉就让我想起了matlab,于是就上网嗖嗖他在矩阵方面的运算如何,如果不想安装Matlab那么大的软件,而你又只是想计算些矩阵,python绝对够用!尤其在Linux下太方便了Python使用NumPy包完成了对N-维数组的快速便捷操作。使用这个包,需要导入numpy。SciPy包以NumPy包为基础,大大的扩展了numpy的能力。为了使用的方便,scipy包在最原创 2015-04-14 09:14:19 · 3929 阅读 · 0 评论 -
聚类中的簇数选择
像其他算法一样,聚类算法也有自己的调整复杂度的控制参数,这就是簇数k。给定k,聚类总是找出k个中心,不管它们是实际上有意义的分组,还是我们使用的算法加强的分组。存在多种调整k的方法:在某些诸如颜色量化的应用中,k由应用确定。使用PCA在二维平面绘制数据可能用来发现数据的结构和数据中的簇数。 增量方法可能有助于确定k;设置允许的最大距离等价于设置每个实例的允许的最大重构误差。在某些实际应原创 2015-04-14 11:22:06 · 5108 阅读 · 0 评论 -
Clustering (1): k-means(Python实现)
1、什么是聚类Clustering 中文翻译作“聚类”,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised原创 2015-04-14 10:38:39 · 2297 阅读 · 0 评论