自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Frog in a well

坐井仰望蓝天

  • 博客(33)
  • 收藏
  • 关注

原创 Advanced Machine Learning 第四节 线性回归

简介线性回归是在统计学以及机器学习中应用最为广泛的模型之一,线性回归常用于预测连续型的随机变量。如果在线性模型中加入核算法或者feature transformation,可以模拟非线性的模型。线性回归线性回归模型可以表示成一下形式:最终的需要预测y的取值,based on 输入向量X,以及系数。通过将输入向量进行变换,可以使线性模型扩展到非线性:里面的函数是bas

2015-09-01 15:24:29 1112

原创 数据可视化中的图形选择

条形图条形图是用途最广泛,最常见的数据图形之一,它的作用主要是:比较多个类别的数据一些使用的建议:在一张图中使用多个条形图,这样可以更加直观的获取更多的信息。在一个条中使用多种颜色,可以获得额外的信息。可以使用堆叠的条形,以及side by side的图形可以和地图结合起来,地图表示大体信息,用条形图来呈现详细信息。例如在Tableau中将map设置为filter,点击

2015-08-06 22:23:23 4155

原创 CS281: Advanced Machine Learning 第三节 高斯模型

高斯模型这章节主要围绕着多元高斯模型展开,它会是之后咱们看到的很多模型的基础。多元高斯模型多元高斯模型和一元高斯模型很类似,只是均值变为了均值向量,方差变为了协方差,一维衡量距离的norm 2,在高位扩展成为了Mahalanobis 距离(x−μ)TΣ−1(x−μ) 接下来咱们想形象直观的理解高斯模型,首先从多元高斯模型的公式入手推导,由于协方差矩阵是对称的,所以它可以分解

2015-08-03 22:50:50 1213

翻译 Matplotlib demo 1

今天看到一个用matplotlib画出了tableau的感觉的demo,忍不住学习一下:# -*- coding: utf-8 -*-from pandas import read_csvimport matplotlib.pylab as plt# Read the data into a pandas DataFrame.gender_degree_data = read_cs

2015-08-01 20:54:46 1090

原创 CS281: Advanced Machine Learning 第二节 Generative model

本小节阅读:MLAPP:第三章CS229:Naive bayes贝叶斯概念学习我们考虑一个小孩学习一个词的过程,比如“狗”。大概是小孩的父母指出了这个词的一些正例,比如说:“看那条可爱的狗”或者“记住那条小狗”等等。然而,他们是不太可能提供如“看那条不是狗的东西”的负例。当然,负例也可能在动态学习的过程中接触到,比如父母可能纠正小孩的错误:“那是一只猫,不是一条狗。” —

2015-08-01 17:25:06 1481

原创 python matplotlib 基础

简介matplotlib是python里面的一个专业绘图工具库,如果想通过python来绘制漂亮的图形,那么一定少不了它了。准备在开始画图之前需要安装numpy以及matplotlib库,当然python基本库也必不可少,numpy是一个专业的数组,矩阵处理工具。• Python• Numpy- this is the module which does m

2015-08-01 09:11:31 1450

原创 CS281: Advanced Machine Learning 第二节 information theory 信息论

信息论熵如果离散随机变量有P(X)分布,那么x所携带的熵(信息量):之所以用log2来作为底,是为了方便衡量该信息可以用多少bit来表示。因为1个bit非0即1. 从上公式可以推导出:当k个状态发生的几率一样时,随机变量X所携带的熵越大。正如下图表示的伯努利分布所携带的熵随着概率变化的结果:KL divergenceKL divergence 全称Kullbac

2015-07-31 18:05:11 1642

原创 CS281: Advanced Machine Learning 第二节 probability theory 概率论

概率论基本概念离散变量概率论中的两个基本法则:加法法则和乘法法则,加法法则定义了随机变量X与条件变量Y之间的直接联系。乘法法则定义了概率学中最重要的条件概率,同时也可以叫做联合概率,因为它描述了事件X和Y同时发生的概率。通过上面公式可以推到出条件概率公式:进而可以得到著名的贝叶斯公式,贝叶斯公式广泛的应用于科学界,这也被称为后验概率,因为它在咱们知道

2015-07-29 22:18:30 2311

原创 CS281: Advanced Machine Learning 第一节

接触机器学习领域有一段时间了,跟过不少基础的课程,也看过一些入门的书籍和论文,现在想通过一门公开课系统的进入机器学习的领域,所以选择了advanced Machine Learning,这是哈佛大学的一门高级机器学习公开课,主要教材选用的是kevin Murphy Machine Learning: A Probabilistic Perspective, MIT Press 以及Christ

2015-07-26 17:41:36 2338

原创 Ensemble method of machine learning 机器学习中的组合方法

最近做了不少的kaggle机器学习竞赛,总结出了一个经验:做好了feature enginering可以进到前百分之20,如果要进到前百分之10,那么就需要Ensemble method的支持了,所以最近专门深入了解了以下组合的各种方法。通过学习发现组合方法真的是屡试不爽,在竞赛的后期,黔驴技穷,走投无路之时,不妨试试组合方法,会让人豁然开朗,组合历史提交答案这是最简单的一种组合方法,只需

2015-07-26 12:56:20 4985

转载 CentOS LAMP +wordpress+phpmyadmin 建站

好了,转回正题,入手了一台LINUX VPS  进去一看 黑乎乎的DOS  立马傻眼。  更可恨的是没有提供相关资料,只能去自己找。自己找到的,还是让人可气,资料上说的,自己试验时没有成功的。总会在某一步出现问题,与资料上的不同。             几天内,查找了很多资料,反复重装上百次,终于结合各种资料,找出一个解决方案。            

2014-10-16 22:41:33 2480

原创 Introduction to Probability (5) Continus random variable

CONTINUOUS RANDOM VARIABLES AND PDFS 连续的随机变量,顾名思义,就是随机变量的取值范围是连续的值,例如汽车的速度,气温。如果我们要利用这些参数来建模,那么就需要引入连续随机变量。如果随机变量X是连续的,那么它的概率分布函数可以用一个连续的非负函数来表示,这个非负函数称作连续随机变量的概率密度函数(probability density function)

2014-06-15 13:56:18 1844

原创 决策树

简介很多人都玩过一个游戏,通过限定次数的提问猜出对方在纸上写出的一个词,当然对方必须对我们的每一个猜测做出回应,通过一连串正确或者错误的判断,如果最终我们猜出了对方的那个词,那么我们就取得了胜利,决策树的工作原理就和这个游戏类似,看下面一个例子:上面这张图就是一个典型的决策树,我们每天出门前要想一下今天是开车还是走路呢?首先看看窗外,下雨了吗?如果有再看看到底是雪还是雨?哇靠!是雪

2014-06-14 12:47:38 7258

原创 Python标准库:迭代器Itertools

Infinite Iterators:IteratorArgumentsResultsExamplecount()start, [step]start, start+step, start+2*step, ...count(10) --> 10 11 12 13 14 ...cycle()pp0, p1, ...

2014-06-11 20:02:50 1835

原创 Introduction to Probability (5) Discrete random variable

1.Basic concept随机变量的定义:随机变量是指针对实验结果的函数。随机变量的函数可以生成另外一个随机变量离散型随机变量的定义:离散型随机变量是指有有限个取值的实验结果的实值函数。每个离散型随机变量有PMF给出每个随机变量取值的概率。2.PMF(probability mass function)如何获得PMF?将随机变量X取值x的所有概率相加,得到Px(x)

2014-06-08 22:22:07 1493

原创 Introduction to Probability (4) Counting

当我们计算概率的时候,假设样本空间中的各个样本发生的概率均等,那么,时间A发生的概率为:所以我们只需要计算时间A包含的样本个数,比上总的样本数,就能得到事件A发生的概率。基本的counting原则假设一次实验共有r个阶段,每个阶段有ni种选择,那么总的样本空间是各个阶段的各种选择的乘积。排列permutation与组合combination当我们要从n个样本中选

2014-06-05 09:33:28 1496

原创 Introduction to Probability (三) Independence

两个事件独立性的定义是:事件A的发生对事件B的发生毫无影响,即从A的发生与否,我们不能推测出B是否发生。从概率等式的表示来看就是B在A发生的情况下发生的概率等于B发生的概率本身。进而引出了A与B同时发生的概率等于他们各自发生的概率的乘积。从两事件的相互独立可以引出多个事件的独立性:如果多个事件同时发生的概率等于他们各自发生的概率的乘积,那么他们是互相独立的。

2014-05-31 21:28:43 1336

原创 图说微积分(十)导数:定义

导数的定义:像

2014-05-30 20:28:10 1681

原创 图说微积分(九)极限与级数

这章主要将了当我们遇到一些0/0,∞/∞的未定式极限的时候,可以用级数的方法找到一些灵感。还记得Sin(x)与x的比值的极限吗?下面将sin(x)在0出用泰勒级数展开,我们看到除了第一项,其他的项都带有x,当x趋近于0时,整个极限趋近于1。可能你能用罗比达法则将其解求出来,但是你知道罗比达法则是怎么来的吗?教授说了凡是需了解其背后运作的规律和原理,坚决不做只会记忆的木头人!

2014-03-02 23:02:22 2369

原创 图说微积分(八)极限

极限先来看极限部分,极限是怎么定义的呢?如果我有任意一个数ε,那么我们总能找出一个数σ使得下面的不等式满足,这就像是两个人打架,一个人在f(x)出招了,另外一个人妥妥的在x接招。无论多小的ε,我们都能找到一个合适的σ使得下面的不等式成立。那么极限什么时候不存在呢?-如果函数在该点不连续,跳跃,这个时候左极限是不等于右极限的,所以它的极限不存在。-碗型曲线,有竖直方向的渐近线

2014-02-25 21:46:24 1901

原创 Introduction to Probability (二) Conditional probability

Conditional probabilityLecture objectiveReview首先回顾下样本空间:是一次实验可能出现的所有结果,它内部的元素有互斥性:一次实验不可能出现多个结果,同时又有穷尽性,一次实验出现的结果必然在样本空间中。事件是指样本空间的一个子集。接下来是概率的三大神:三公理:-任何事件发生的概率大于等于0-样本空间发生的概率等于

2014-02-24 22:28:31 1687

原创 图说微积分(七)泰勒级数的计算

教授又开始说笑了,我们已经知道了怎样像个超人一样去微分,计算一些函数的泰勒级数岂不是小菜一碟?根据泰勒公式:我们要计算e^x在x=0很容易,因为它的各阶导数在x=0处都相等,为1,那么我们要是计算它在x=10处的展开呢?似乎是个问题。同样的,如果我们要求sinx的泰勒级数:绕啊绕啊绕,无限循环中....有时候老老实实的套公式并非最佳解,因为我们要计算大量的高

2014-02-24 20:16:25 3719

原创 Learning theory 机器学习原理

Introduction年前刚刚完成了一门台大的机器学习基石课程,最后得到了complete with distinction的证书,话说真是有点小惊喜啊,为什么惊喜呢?因为第二次作业做得实在是烂,刚破及格线,这第二章讲的什么呢?为什么机器能够学习,机器学习的理论基础,经过三思,决定好好回顾一下机器学习的理论基础。评价一个机器学习算法的generalization性能的方法就是看它在测试数

2014-02-24 19:13:09 5024

原创 Introduction to Probability (一) Probability model and Axiom

前言本系列记录了我参与edx公开课MIT6.041的一些笔记和思考。这是这一lecture的内容:sample spaceset为了说明样本空间是什么,我们首先需要引入一些关于set(集)的概念,一个集就是包含了很多元素,很多对象的集合。关于集合的表示方法可以是:-有限集:比如我们丢色子,可能出现的结果的集合是:-可计算的无限集:(可以罗列出可能的结

2014-02-23 12:47:39 2710

原创 图说微积分(六)泰勒级数

教授一上来就说:任何有理的函数他们都能写成下面的多项式累加的形式,这样的形式表示的是函数在x=0这点的泰勒级数展开,表示的是在x=0周围,函数与这些多项式的组合的函数值很接近。也可以称作麦克劳级数从下图我们可以发现,当函数e^x展开的次数越来越多时,多项式在x=0旁边的图像越来越逼近指数函数。那么函数在x=0的泰勒展开的具体公式是怎么样的呢?如下:这在x=0展开是特俗情

2014-02-23 10:17:14 2570

原创 图说微积分(五)特殊级数

你没看错,这货一开始就上来级数!泰勒级数!这难道就是传说中的倒叙手法吗?不过我是赞成这样的安排,因为级数让我们明白了很多东西!首先映入眼帘的是指数函数在x=0的泰勒级数展开。泰勒级数的每项分为系数项和多项式项,系数的分子由函数在展开点的n阶导数决定,系数的分母由n的阶乘来决定。所以有了公式,我们能够算出大部分常用函数的泰勒级数。指数函数的n阶导数在0点的函数值始终为1,所以

2014-02-23 10:05:42 3961

原创 图说微积分(四)三角函数

今天进入三角函数的话题首先是一个自然对数函数,对数函数就是指数函数的反函数,定义域为x大于0,当a大于1,它在区间0到正无穷上是单调递增的,当a小于1,它在区间0到正无穷上是单调递减的。如下图接下来是一系列三角函数:-sin函数(正弦函数)-cos函数(余弦函数)-tanx(正切函数),要注意的是它的定义域,因为其分母是余弦函数,根据分母

2014-02-22 09:58:09 4425

原创 图说微积分(三)函数

今天我们进入下面这张图:右下角的吃豆人超级抢眼!我都忘了这是本数学书,还以为是游戏攻略呢!下面我们步步拆解:上一幅图讲到了反函数,下面是反函数的几个例子:x^3的反函数是x^(1/3),因为这个函数在定义域R上是单调的,所以它的反函数并没有值域的限制。x^2的反函数是x^(1/2),且值域为正,为什么要限定值域呢?因为抛物线形状的图形导致了二次函数的反函数对应的值并

2014-02-21 09:16:38 4779 1

原创 图说微积分(二)函数

函数第一章,我们进入函数的内容,这幅封面很形象的画出了函数是什么,它就像一台机器,吃进去一些东西(定义域),制造出另外一些东西(值域)。我的天,这是啥!啥!啥!面对这漫天的文字,我感到很无助,但是再无助我也要继续前进!不妨让我们拆解上图。教授说:你小子不理解函数,你在数学的道路上不可能走很远!函数就是数学的DNA!那么什么是函数呢?函数f就是把x

2014-02-20 23:55:39 2056

原创 图说微积分(一)

本系列是对robert ghrist教授的FLCT以及结合他的Math104做的一些笔记,话说这位教授简直是位艺术家啊,把一门课搞得花花绿绿的,让人嘴馋的不得了!下面我们来到了第一张图,这本五花八门的书讲了些什么?教授如是说,这本小而有趣的书不能替代你的标准教科书,它旨在娱乐大众。前提条件:-你必须有接触过微积分,你知道如何求微分和积分,但是就像是生命中的某些事物一样,我们不知道它

2014-02-20 23:08:32 1922

原创 凸优化(convex optimization)第二讲:convex set

Convex opt  第二讲(convex set)Affine setaffine set 表示经过两点的一条线,这条线满足:相较于后面我们要讨论的convex set,这里少了一些限制,是一个更广意义的直线,当theta取任意实数时,这条直线在无限的空间中延伸扩展。当我们取theta大于1时,此时x1占的权重较大,x2较小,点就在靠近x1的方向上,当t

2014-01-31 09:52:39 20804 1

原创 集体智慧编程读书笔记(一)提供推荐

本书的第二章提供推荐主要涉及了三种情形的推荐:1:推荐相似兴趣的人2:推荐影片/书籍3:匹配影片/书籍 算法的实现主要描述如下:1:推荐相似兴趣的人通过将人与人的某一兴趣(电影,书籍...)中的详细名目评分的相似度关系计算来实现人的推荐。主要的相似度计算方法有:欧几里得距离法:通过用户对各项作品的评分,有n个评分,即为n维距离,根据距离的长短来确定相

2013-09-24 16:34:22 1700

原创 深入浅出数据分析读书笔记(head first into data analysis)

第一章 我要研究的对象是什么,分析的重点是什么,我要解决什么?第二步:将主要的大问题分解为无数的小问题,当小问题解决了,大问题自然迎刃而解。第三步:评估,将得到的数据拆分 对比 得出有用的结论。第四步:从分析评估中给出决策。注意:分析与评估是基于正确的信息基础的,如果是从错误的信息中得出的结论,那么又得从头开始分析。第二章:实验

2013-09-24 15:06:47 3787

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除