
算法
文章平均质量分 82
Eric2016_Lv
上海交大2014级硕士,2016级博士。兴趣方向:凸优化,数据分析,应用多元统计;机器学习,深度学习,数据挖掘,金融统计等。
展开
-
R语言数据的预处理以及算法基础小记
声明:本文笔记来源《一个贯穿图像处理与数据挖掘的永恒问题》,作者为左飞,原文地址: 更多细节点击这里。 # 1. 算法基础部分:求解一个3*3矩阵的中位数,常常用在图像处理中的patch处理。 # 2. R语言基础部分:读取数据,预处理,Kmeans算法实现。算法基础假如有一个矩阵为 036147258 \begin{matrix} 0 & 1& 2 \\原创 2016-10-09 12:54:08 · 2804 阅读 · 0 评论 -
机器学习小组知识点35:二分K-means聚类
常规的KMeans算法的误差通常只能收敛到局部最小,在此,引入一种称为二分K-Means(bisecting kmeans)的算法,相较于常规的KMeans,二分KMeans不急于一来就随机KK个聚类中心,而是首先把所有点归为一个簇,然后将该簇一分为二。计算各个所得簇的代价函数(即均方误差),选择误差最大的簇再进行划分(即最大程度地减少误差),重复该过程直至达到期望的簇数目。二分K-means算法的原创 2017-03-10 17:13:24 · 1066 阅读 · 0 评论 -
机器学习小组知识点36:FCM聚类
Reference: https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html原创 2017-03-27 20:24:33 · 984 阅读 · 0 评论 -
机器学习小组知识点39:广义线性模型(Generalized Linear Model)
声明: 本文内容主要转自http://tech.meituan.com/intro_to_logistic_regression.html 本人只是将其根据自己理解二次开发供学习交流,对原作者表示感谢,维护知识产权,人人有责!逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,原创 2017-04-17 21:47:16 · 1424 阅读 · 0 评论 -
python数据结构与算法1: BF算法
# -*- coding: utf-8 -*-"""BF algoritmTo count the string numer appears in another string.Author @Eric Lve-mail: Eric2014_Lv@sjtu.edu.cn"""# the main stringt = "this is a big appleappl,this is a原创 2017-07-24 19:05:48 · 2002 阅读 · 0 评论 -
Tensorflow学习:简单实现卷积神经网络(CNN)
# -*- coding: utf-8 -*-"""Created on Thu Aug 17 16:24:55 2017Project: Convolution Neural Network (with two convolution layers, one full conection layer and one softmax layer)E-mail: Eric2014_Lv@sjt原创 2017-08-18 23:01:41 · 917 阅读 · 0 评论 -
Tensorflow学习: 自编码器Tensorflow代码
# -*- coding: utf-8 -*-"""Created on Mon Aug 14 21:13:18 2017Project: Autoencoder 'Net'@author: DidiLvE-mail: Eric2014_Lv@sjtu.edu.cnReference: 《Tensorflow实战》 P59-P66"""import numpy as npimpor原创 2017-08-14 23:33:19 · 933 阅读 · 0 评论 -
决策树之构建《机器学习实战》-py3.5
# -*- coding: utf-8 -*-"""Created on Tue Jan 30 09:48:53 2018Email: Eric2014_Lv@sjtu.edu.cn@author: DidiLvPython version: 3.5"""from math import *import operatordef createDataSet(): dat原创 2018-01-30 16:26:04 · 446 阅读 · 0 评论 -
k-近邻算法《机器学习实战》-py3.5
# -*- coding: utf-8 -*-"""Created on Fri Jan 26 16:11:28 2018E-mail: Eric2014_Lv@sjtu.edu.cn@author: DidiLvPython Version: 3.5"""from numpy import *from os import listdirimport operatorimp原创 2018-01-29 18:24:46 · 510 阅读 · 0 评论 -
MCMC算法之模拟退火(Simulated annealing)算法(Matlab代码)
1. Introduction: Simulated annealing for global optimization:Instead of wanting to approximate p(x)p(x)p(x), we want to find the global maximum. For example, if p(x)p(x)p(x) is the likelihood or pos...原创 2018-03-26 18:05:59 · 3954 阅读 · 2 评论 -
机器学习小组知识点34:K-means聚类
监督学习和非监督学习前情回顾:在聚类问题中,给定一个训练集,算法根据某种策略将训练集分成若干类。在监督式学习中,训练集中每一个数据都有一个标签,但是在如果分类问题中没有标签,我们可以将聚类算法称之为非监督式学习算法。这两种算法最大的区别还在于:监督式学习有标签,而非监督式学习没有标签。那么这里可以理解为标签实际上就是一种监督性质的分类,而无标签根据分布性质,那么我们称之为聚类。感兴趣同学可以查阅半监原创 2017-03-10 16:30:36 · 892 阅读 · 0 评论 -
机器学习小组知识点33:马尔科夫蒙特卡罗采样算法2:(Gibbs )
参考文献: 1. https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/原创 2017-02-24 13:22:16 · 1422 阅读 · 0 评论 -
机器学习小组知识点32:马尔科夫蒙特卡罗采样算法1:(Metropolis-Hasting )
该文章几乎全部转载于参考文献1历史回顾:随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在原创 2017-02-24 13:15:17 · 2169 阅读 · 0 评论 -
机器学习小组知识点6:最大似然估计法(MLE)
为了照顾大家不同的基础,我只能写的不是很数学化,因此就用大家都能理解的东西。最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计: 最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国原创 2016-10-21 16:57:23 · 3144 阅读 · 0 评论 -
机器学习小组知识点5:随机梯度下降(SGD)以及与批量梯度下降(BGD)的比较
该文档不仅包含了SGD更有与BGD的比较,希望同学们多多反馈! 文档下载全部免费! 详情请点击资源页进行下载 http://download.youkuaiyun.com/detail/eric2016_lv/9660446致谢:感谢上海交通大学熊均达同学为本资源的整理和归纳,另外感谢肖凯博士对本资源,再次致以诚挚的感谢!原创 2016-10-21 18:49:07 · 1271 阅读 · 0 评论 -
机器学习小组知识点4&5:批量梯度下降法(BGD)和随机梯度下降法(SGD)的代码实现Matlab版
这里趁着脑子还清醒就把代码敲出来了: 亲测是没有bug的,欢迎大家来找虫。clear all close all clc%% initialization % input x & y x1 = [1 3 2104]; y1 = 400; x2 = [1 3 1600]; y2 = 330; x3 = [1 3 2400]; y3 = 369;原创 2016-10-19 10:17:28 · 6969 阅读 · 2 评论 -
机器学习小组知识点2:最小均方算法(LMS)
感谢:向原文作者Nanshu Wang致以崇高的敬意!原文请点击这里 声明: 博主只是推了一遍然后细节更多的阐释了下,再次向原文作者致谢!同时,向上海交通大学软件学院教师肖凯博士所搭建的平台致谢!有监督学习(Supervised Learning)线性回归(Linear Regression)LMS算法正规方程(The Normal Equations)正规方程与梯度下降的比较1.有原创 2016-10-15 10:43:38 · 4382 阅读 · 0 评论 -
机器学习小组知识点3:最小二乘法(LSM)
上篇博客介绍了最小均方算法(LMS),其实里面的东西包含的很多,其中有最小二乘法,梯度下降以及随机梯度下降法。这篇博客着重介绍最小二乘法的推导,来源以及做一点儿推广。下面进入正题:最小二乘法的闭形式推导在上篇博客我们引入了J(θ)J(\theta)成本函数的具体形式,这里我们要推导出关于θ\theta的“闭形式”,数学上也称为解析解的形式。下面我们要重新将JJ写成矩阵乘向量的形式。给定一个训练集,定原创 2016-10-17 09:41:27 · 5196 阅读 · 0 评论 -
机器学习小组知识点7:伯努利分布(Bernouli Distribution)
伯努利分布是较为简单的一种分布,应用于两种实验结果。要么成功,要么失败,一定程度上是二元的性质。这里,我们假设成功的概率为pp,显然失败的概率就变成了1−p1-p。 概率公式可以表示为f(x)=px(1−p)1−xf(x)=p^x(1-p)^{1-x},xx为0或1,1代表成功,0代表失败。 接下来我们研究以下统计量,1.数学期望E(x)=E(x1)+E(x2)+⋯+E(xn)=x1p原创 2016-11-08 10:43:52 · 7019 阅读 · 0 评论 -
机器学习小组知识点4:批量梯度下降法(BGD)
详情请点击资源页进行下载 http://download.youkuaiyun.com/detail/eric2016_lv/9657140不用怕,免费!致谢:感谢肖凯博士为本资源的整理和归纳,另外感谢上海交通大学成清请,许唱两位同学对本资源的审核,再次致以诚挚的感谢!原创 2016-10-18 17:22:24 · 1156 阅读 · 0 评论 -
机器学习小组知识点10:多项式分布(Mutibinomial distribution)
介绍把二项分布公式再推广,就得到了多项分布。 二项分布的典型例子是扔硬币,硬币正面朝上概率为pp, 重复扔nn次硬币,kk次为正面的概率即为一个二项分布概率。(严格定义见二项分布中伯努利实验定义) 把二项扩展为多项就得到了多项分布。比如扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是16\frac{1}{6}(对应p1p_1至p6p_6,它们的值不一定都是16\f原创 2016-11-09 21:34:26 · 3490 阅读 · 0 评论 -
机器学习小组知识点20:EM算法(Expectation - Maximization)
EM算法用途:参数估计。用于多种模型,思路简单,但用处很广。EM算法所需知识: 凸集 凸函数 Jensen不等式 极大似然估计 概率相关知识 手写笔记(Rachel Zhang)之所以用图片,第一是因为看到女神的笔记,真的不能拒绝;第二是自己也想手写,因为公式太多了,然而没想到竟然与女神想到一块儿去了^_^~ 备注:图片来源于迪哥女神 Rachel Zhan原创 2016-11-24 21:51:18 · 1099 阅读 · 0 评论 -
DCGANs: 用DCGAN生成图片(MNIST)
由于接下来要做医学图像的东西,老板先让我跑着TF来玩玩积累经验。 作为一个非计算机科班出身的人,写代码与理解代码的能力尤为重要。 本文根据链接进行了代码修改和体会,其中学到了很多。强调: 学习本博客一定要参考原博客的详细过程阐释作为基础,同时结合我代码里面的注释,才能达到最佳的学习效果。重点: 对于generator的理解,请参考链接paper,其中值得注意的是在U-...原创 2018-07-25 17:27:40 · 2340 阅读 · 0 评论