
机器学习与数据挖掘
zjxiaolu
当你的实力还不足以撑起你的野心的时候,请继续低头前行,提高你的实力!
展开
-
机器学习与数据挖掘
机器学习(Machine Learning, ML)的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它(这种关系)能够对未知输出做出尽可能准确地预测。机器学习至今没有一个精确的公认的定义。作为人工智能(Artificial Intelligence, AI)的一个重要研究领域,ML的研究工作主要围绕学习机理、学习方法和面向任务这三个基本方面进行研究。模式识别、函数逼近和概率密度估转载 2014-11-10 00:47:14 · 925 阅读 · 0 评论 -
Splunk 会议回顾: 大数据的关键是机器学习
Splunk的用户大会已经接近尾声。三天时间的会议里,共进行了160多个主题研讨,涵盖了从安全、运营到商业智能,甚至包括物联网,会议中一遍又一遍出现相同的中心主题:大数据的关键是机器学习。存储不再是一个问题。从运行Hadoop兼容节点的专用存储硬件,到数百台使用普通硬盘的计算机组成的集群,毫无疑问,我们具备了处理这类存储问题的能力。另一方面,像Splunk这样的分析和可视化工具也应运而生。转载 2014-11-10 00:45:22 · 607 阅读 · 0 评论 -
25年后的统计系会是什么样?
本文是统计学家Leo Breiman1994年在加州伯克利统计系毕业典礼上的讲话,原文请参考此处,中文译稿可参见施涛博客,本文对其进行了修改和润色。Leo Breiman简介:加州伯克利统计系教授,美国国家科学院院士,20世纪伟大的统计学家,囊括多项统计领域大奖。机器学习先驱者,分类回归树作者之一,Bagging方法发明者,对模式识别领域有巨大贡献。于2005年逝世。更多信息可参考此处和此转载 2014-11-12 00:25:16 · 834 阅读 · 0 评论 -
机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
人工智能、机器学习、模式识别、计算机视觉、数据挖掘、信息检索、自然语言处理等作为计算机科学重要的研究分支,不论是学术界还是工业界,有关这方面的研究都在如火如荼地进行着,学习这些方面的内容有一些经典书籍,现总结如下,方便自己和大家以后学习研究:人工智能:《Artificial Intelligence: A Modern Approach》,第三版,Russell著,权威、经典的人工转载 2014-08-17 22:18:33 · 807 阅读 · 0 评论 -
机器学习简史
目录(?)[-]涉及学科研究范畴最近学习的重点不在机器学习上面,但是现代的学科就是这么奇妙,错综复杂,玩着玩着,你发现又回到了人工智能这一块。所以干脆好好整理下当下令很多人如痴如醉,但又不容易入门的机器学习。一来给大多数还没有入门的人一点宏观概念,二来让我自己以后找解决办法的时候更有头绪。故此文不是给想快速上手的工程师的菜单,更像一篇娓娓道来的武侠小说,看看人工智能转载 2014-10-02 01:36:11 · 1151 阅读 · 0 评论 -
数据挖掘、机器学习和模式识别关系与区别
这学期分别学习了《数据挖掘》《机器学习》和《模式识别》三门课程,为了搞明白这三者的关系,就google了下,一下为一些从网上获得的资料。----------------------------- 数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对转载 2014-11-21 18:58:39 · 686 阅读 · 0 评论 -
干货整理:深度学习 vs 机器学习 vs 模式识别
本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系。环绕四周,你会发现不缺乏一些初创的高科技公司招聘机器学习专家的岗位。而其中只有一小部分需要深度学习专家。我敢打赌,大多数初创公司都可以从最基本的数据分析中获益。那如何才能发现未来的数据科学家?你需要学习他们的思考方式。三个与“学习”高度相关的流行词汇转载 2015-03-31 00:01:26 · 994 阅读 · 0 评论 -
大牛学习笔记:机器学习算法概览
机器学习(Machine Learning, ML)是什么,作为一个MLer,经常难以向大家解释何为ML。久而久之,发现要理解或解释机器学习是什么,可以从机器学习可以解决的问题这个角度来说。对于MLers,理解ML解决的问题的类型也有助于我们更好的准备数据和选择算法。想入门机器学习的同学,经常会去看一些入门书,比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的转载 2015-03-31 00:02:59 · 4033 阅读 · 0 评论 -
在现实实践中会遇到的机器学习算法总结
在理解了我们需要解决的机器学习问题之后,我们要思考需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。机器学习领域有很多算法,然后每种算法又有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。机器学习转载 2015-03-31 00:05:30 · 645 阅读 · 0 评论 -
AMA: Yoshua Bengio (self.MachineLearning)
Yoshua Bengio ( http://www.iro.umontreal.ca/~bengioy/yoshua_en/index.html ) is one of the machine learning professors who led the deep learning renaissance of 2006, along with Geoff Hinton and Yann转载 2015-03-18 16:10:38 · 5521 阅读 · 0 评论 -
对话机器学习大神Yoshua Bengio
Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。他是仅存的几个仍然全身心投入在学术界的深度学习教授之一,好多其他教授早已投身于工业界,加入了谷歌或Facebook公司。转载 2015-03-18 16:10:26 · 750 阅读 · 0 评论 -
计算机视觉的定义,应用及整个系统
定义: 计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。 计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。我们中国人的成语"眼见为实"和西方转载 2015-04-02 19:26:14 · 8202 阅读 · 1 评论 -
【机器学习系列】机器学习界大牛林达华推荐的书籍
Recommended BooksHere is a list of books which I have read and feel it is worth recommending to friends who are interested in computer science.Machine LearningPattern Recognition and M转载 2015-03-18 16:13:53 · 462 阅读 · 0 评论 -
机器学习入门:机器学习概论
什么是机器学习? 在1959年,Arthur Samuel:不用编程去指定机器做什么,而是让机器有能力自己学习;在1998年,Tom Mitchell:首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习; 以上就是对机器学习的两个定义; 机器学习在生活中也处处可见,比如:(1)在gmail转载 2015-04-10 23:36:42 · 541 阅读 · 0 评论 -
数据挖掘中所需的概率论与数理统计知识
数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数转载 2015-04-19 22:10:48 · 1196 阅读 · 0 评论 -
DM与ML的主要区别
1. DM更应用化,ML更偏研究与算法(所以公司一般有数据挖掘工程师,机器学习研究员)2. ML的问题经常是明确定义的,包括数据集及目标(且数据集是固定的);DM通常只定义目标,甚至连目标也没有(给你一堆数据,给我找出有价值、有意思的东西出来); 在定义了目标的情况下,DM可以使用非固定的数据源3. ML只是DM使用的方法的一种,DM还可以使用其他的方法(比如统转载 2015-04-16 09:37:17 · 2757 阅读 · 0 评论 -
机器学习入门的书单(数据挖掘、模式识别等一样)
(写在前面)昨天说写个机器学习书单,那今天就写一个吧。这个书单主要是入门用的,很基础,适合大二、大三的孩子们看看;当然你要是大四或者大四以上没看过机器学习也适用。无论是研究智能还是做其他事情,机器学习都是必须的。你看GFW都用机器学习了,咱是不是也得科普一下。(全文结构)其实,我想了想,学一门学科,列出一堆书,评论来评论去的,其实对初学者用处不大;他都不知道这些是啥,你就开始一顿评论,只能转载 2015-04-16 10:11:34 · 654 阅读 · 0 评论 -
一文读懂机器学习,大数据/自然语言处理/算法全有了……
阅读目录1.一个故事说明什么是机器学习2.机器学习的定义4.机器学习的方法5.机器学习的应用–大数据6.机器学习的子类–深度学习7.机器学习的父类–人工智能8.机器学习的思考–计算机的潜意识9.总结10.后记作者:计算机的潜意识在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算转载 2015-04-30 00:34:27 · 1102 阅读 · 0 评论 -
机器学习入门的书单(数据挖掘、模式识别等一样)
(写在前面)昨天说写个机器学习书单,那今天就写一个吧。这个书单主要是入门用的,很基础,适合大二、大三的孩子们看看;当然你要是大四或者大四以上没看过机器学习也适用。无论是研究智能还是做其他事情,机器学习都是必须的。你看GFW都用机器学习了,咱是不是也得科普一下。(全文结构)其实,我想了想,学一门学科,列出一堆书,评论来评论去的,其实对初学者用处不大;他都不知道这些是啥,你就开始一顿评论,只能转载 2014-11-10 00:46:12 · 594 阅读 · 0 评论 -
R语言与机器学习中的回归方法学习笔记
机器学习中的一些方法如决策树,随机森林,SVM,神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束,预测效果也比较不错,交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。一、数据集及交叉验证办法描述 Diabetes数据集包含在R的lars包中,数据分为x,y,x2三个部分,因变量为y,数据是关于糖尿病的转载 2014-11-10 00:47:53 · 1792 阅读 · 1 评论 -
数据挖掘主要解决的四类问题
摘自《深入浅出谈数据挖掘》--段勇 数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。 一般来说,数据挖掘转载 2014-11-10 00:52:10 · 630 阅读 · 0 评论 -
数据挖掘技术在信用卡业务中的应用及实例分析
信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。 一、数据挖掘技术在信用卡业务中的应用 数据挖掘技术在信用卡业务中转载 2014-11-10 00:52:59 · 1471 阅读 · 0 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2014-11-10 00:48:36 · 560 阅读 · 0 评论 -
盘点:大数据处理必备的十大工具
摘要:随着互联网的愈来愈开放,电子商务平台和社交网络的盛行,导致数据在日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。随着互联网的愈来愈开放,电子商务平台和社交网络的盛行,导致数据在日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表:1. Apache Hive:Hive是一个建立在Hadoop上转载 2014-11-11 17:40:53 · 1695 阅读 · 0 评论 -
Science发表的超赞聚类算法
作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.算法思想聚类过程那些有着比较大的局部密度ρi和很大的δi的点被认为是类簇的中心. 局部密度较小但是δi较大的点是异常点.在确定了类簇中心之后, 所有其他点和距离其最近的密度大于该点的点属于同转载 2014-11-17 01:13:30 · 2455 阅读 · 1 评论 -
22本数据分析、挖掘的好书推荐——干货分享
1. 深入浅出数据分析 (豆瓣)这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。 难易程度:非常易。 2. 啤酒与尿布 (豆瓣)通过案例来说事情,而且是最经典的例子。 难易程度:非常易。 3. 数据之美 (豆瓣)一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。 难易程度:易。转载 2014-11-19 01:24:06 · 531 阅读 · 0 评论 -
数据挖掘学科发展报告
来源:精选 作者:唐杰,梅俏竹 时间:2013-10-17 14:59:00【摘要】近年,随着各行业对大规模数据处理和深度分析需求的快速增长,数据挖掘引起了研究界和工业界的广泛关注。1.引言 数据挖掘是知识发现过程中的一个关键步骤,一般是指从大量数据中自动发现隐含的的数据关系,并将其转化为计算机可处理的结构化表示。数据挖掘是计算机学科中的一个交叉研究领域,其转载 2014-09-09 19:23:28 · 2199 阅读 · 0 评论 -
数据可视化初体验(R语言)
我对数据可视化的认识 前些天通过一张美丽的图片,闯进了FlowingData这个世界,开始真正去了解数据可视化。“The greatest value of a picture is when it forces us to notice what we never expected to see”是该网站about中的第一句话,在逛了不少可视化的网站和博客之后,个人觉得这句话是数据可转载 2014-11-10 00:51:25 · 1092 阅读 · 1 评论 -
机器智能学科
机器智能学科简介:机器智能(Machine Intelligence,MI) 是指由机器(计算机以及其它计算设备)实现的人的智能,也被称为人工智能(Artificial Intelligence, AI),专指计算机科学中与智能行为自动化有关的一个分支。这一概念最早于1956年被提出。机器智能是现代计算机科学的重要研究领域,并为人类生活带来日新月异的变化。机器智能在当今广为人知的应用包括智能系统、转载 2014-08-15 10:05:00 · 1135 阅读 · 0 评论 -
机器学习入门,神经元模型
2012-10-28 13:40 | (分类:机器学习)注:我将重点根据《Machine Learning: An Algorithmic Perspective》一书,对ML方向的一些方法做一些讨论并说说我个人的心得。鄙人初入此方向,希望和大家探讨,求拍砖。之前写了一点数据挖掘的某些内容的方法,也说到数据挖掘是个宽领域,说她宽,是觉得现在这个大数据时代,特别是电脑到处有,数据转载 2014-09-03 20:33:53 · 2183 阅读 · 0 评论 -
神经元网络即将干的漂亮事儿
摘要 : 百度首席科学家、38岁的吴恩达笃定地说,未来有一天,他的孙女一定会这样不解地问他:以前你跟你的微波炉说话,他都不理你,这是不是太没礼貌了?机器还会学会什么?最可怕的事情正在发生——它正学会独立思考。机器人会具备越来越多的人性,他可能会写社论,抚养孩子,甚至自己创造另一个机器人,“他们做很多事情都会比人类厉害。”机器人将可能挑战人类存在的意义。陈庆春/文转载 2015-02-01 20:30:08 · 711 阅读 · 0 评论 -
十大数据挖掘算法及各自优势
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评转载 2014-11-10 00:54:13 · 412 阅读 · 0 评论 -
【机器学习系列】机器学习界大牛林达华推荐的书籍
[-]Recommended BooksMachine LearningPattern Recognition and Machine LearningGraphical Models Exponential Families and Variational InferenceBig Data A Revolution That Will Transform How We转载 2014-11-21 19:01:55 · 963 阅读 · 0 评论 -
余凯在清华的讲座笔记
原文地址:http://blog.youkuaiyun.com/huangbo10/article/details/22944007转载 2014-08-03 12:35:09 · 626 阅读 · 0 评论 -
统计机器学习方法简述
2013-01-28 09:04 | (分类:机器学习)转载 2014-09-03 20:35:51 · 1959 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,转载 2014-11-09 02:27:33 · 646 阅读 · 0 评论 -
机器学习前沿热点–Deep Learning
[-]一Deep Learning的前世今生二Deep Learning的基本思想和方法三深度学习Deep Learning算法简介不充分的深度是有害的大脑有一个深度架构认知过程看起来是深度的四拓展学习推荐五应用实例六参考链接深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音转载 2014-10-02 01:34:24 · 580 阅读 · 0 评论 -
自学成才秘籍!机器学习&深度学习经典资料汇总
《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最转载 2015-05-05 17:54:57 · 8668 阅读 · 1 评论