
机器学习
文章平均质量分 73
Eric2016_Lv
上海交大2014级硕士,2016级博士。兴趣方向:凸优化,数据分析,应用多元统计;机器学习,深度学习,数据挖掘,金融统计等。
展开
-
Python对pdf中的关键字过滤(pdfminer3k或pdfminer使用)
最近在实习,老板一下子发给了我120份研报,然而很多都是没用的。聪明的大脑一定要想办法让电脑帮助自己完成简单的工作!下面是Python筛选含有“”丙烯“”关键字的程序,由于文件的保密性只能贴出代码。注意:pip install pdfminer3k而不是pdfminer导入的时候名字是pdfminer,原因我才是python版本的问题# -*- coding: utf-8 -*-"...原创 2019-05-10 18:59:16 · 2959 阅读 · 3 评论 -
主成分分析(数据分析课本例3.9.1)
Python代码:# -*- coding: utf-8 -*-"""Created on Tue Feb 6 14:37:21 2018E-mail = Eric2014_Lv@sjtu.edu.cn@author: DidiLv"""# 项目内容:线性统计模型(线性回归与方差分析)例3.9.1import numpy as npfrom sklearn import原创 2018-02-06 15:41:00 · 866 阅读 · 0 评论 -
k-近邻算法《机器学习实战》-py3.5
# -*- coding: utf-8 -*-"""Created on Fri Jan 26 16:11:28 2018E-mail: Eric2014_Lv@sjtu.edu.cn@author: DidiLvPython Version: 3.5"""from numpy import *from os import listdirimport operatorimp原创 2018-01-29 18:24:46 · 510 阅读 · 0 评论 -
决策树之构建《机器学习实战》-py3.5
# -*- coding: utf-8 -*-"""Created on Tue Jan 30 09:48:53 2018Email: Eric2014_Lv@sjtu.edu.cn@author: DidiLvPython version: 3.5"""from math import *import operatordef createDataSet(): dat原创 2018-01-30 16:26:04 · 446 阅读 · 0 评论 -
机器学习小组知识点1:均方误差(MSE)
均方误差单独扽概念是很简单的,这里只做介绍,更深一步的内容会在后面列出来。SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determination原创 2016-10-14 23:28:03 · 62881 阅读 · 12 评论 -
Tensorflow学习: AlexNet练手版
# -*- coding: utf-8 -*-"""Created on Fri Aug 25 21:00:36 2017@author: DidiLv"""from datetime import datetimeimport mathimport timeimport tensorflow as tf# batch的大小, batch的数量batch_size = 32num_b原创 2017-08-25 23:45:20 · 856 阅读 · 0 评论 -
Tensorflow学习:ResNet代码(详细剖析)-待补充,非最终版本
参考链接:感谢此位博主的工作,本博主只做进一步的剖析,目的为掌握和具备二次开发能力。 http://blog.youkuaiyun.com/superman_xxx/article/details/65452735先贴代码:# -*- coding: utf-8 -*-"""Created on Thu Aug 17 16:24:55 2017Project: Residual Neural Netwo原创 2017-08-24 12:31:05 · 4745 阅读 · 3 评论 -
Tensorflow学习: Slim tutorial
因为在写ResNet时候用到了Slim所以打算拿出时间将这个库写写。好久没时间锻炼一下翻译了。 参考链接(英文):https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slimTensorflow-SlimTF-Slim是一个TF中重要性不算很重要的一个包,它多用于来定义,训练和评估复杂的模型。TF-slim原创 2017-08-24 16:30:09 · 3070 阅读 · 0 评论 -
Tensorflow学习: one-hot编码
问题源于Udacity深度学习视频13,14课不解之处。 https://classroom.udacity.com/courses/ud730/lessons/6370362152/concepts/63713510510923一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意原创 2017-08-21 14:36:15 · 6383 阅读 · 0 评论 -
Tensorflow学习:简单实现卷积神经网络(CNN)
# -*- coding: utf-8 -*-"""Created on Thu Aug 17 16:24:55 2017Project: Convolution Neural Network (with two convolution layers, one full conection layer and one softmax layer)E-mail: Eric2014_Lv@sjt原创 2017-08-18 23:01:41 · 917 阅读 · 0 评论 -
Tensorflow学习:Session会话控制
本文内容:体会tensorflow.matmul(x,y)与numpy.dot(x,y)的内容with tf.Session()的自动关闭功能(即with语句功能)# -*- coding: utf-8 -*-"""Created on Wed May 3 09:18:43 2017E-mail: Eric2014_Lv@sjtu.edu.cn@author: DidiLv"""i原创 2017-05-03 10:40:55 · 711 阅读 · 0 评论 -
机器学习小组知识点39:广义线性模型(Generalized Linear Model)
声明: 本文内容主要转自http://tech.meituan.com/intro_to_logistic_regression.html 本人只是将其根据自己理解二次开发供学习交流,对原作者表示感谢,维护知识产权,人人有责!逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,原创 2017-04-17 21:47:16 · 1424 阅读 · 0 评论 -
机器学习小组知识点36:FCM聚类
Reference: https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html原创 2017-03-27 20:24:33 · 984 阅读 · 0 评论 -
机器学习小组知识点35:二分K-means聚类
常规的KMeans算法的误差通常只能收敛到局部最小,在此,引入一种称为二分K-Means(bisecting kmeans)的算法,相较于常规的KMeans,二分KMeans不急于一来就随机KK个聚类中心,而是首先把所有点归为一个簇,然后将该簇一分为二。计算各个所得簇的代价函数(即均方误差),选择误差最大的簇再进行划分(即最大程度地减少误差),重复该过程直至达到期望的簇数目。二分K-means算法的原创 2017-03-10 17:13:24 · 1066 阅读 · 0 评论 -
机器学习小组知识点34:K-means聚类
监督学习和非监督学习前情回顾:在聚类问题中,给定一个训练集,算法根据某种策略将训练集分成若干类。在监督式学习中,训练集中每一个数据都有一个标签,但是在如果分类问题中没有标签,我们可以将聚类算法称之为非监督式学习算法。这两种算法最大的区别还在于:监督式学习有标签,而非监督式学习没有标签。那么这里可以理解为标签实际上就是一种监督性质的分类,而无标签根据分布性质,那么我们称之为聚类。感兴趣同学可以查阅半监原创 2017-03-10 16:30:36 · 892 阅读 · 0 评论 -
MCMC算法--Gibbs采样1:分块对称阵的逆和行列式
由于Gibbs采样所需要条件分布,所以作为第一篇只是warm up,后面将会用到这次博客上的内容。本文的资料来源于参考链接:http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node6.html 但是,由于链接页面内容有几处错误,本人特意将其修改后整理成下面形式。线性代数不扎实的同学要仔细推一下: (BTW:我也上传了相应的p...原创 2018-03-30 10:26:53 · 710 阅读 · 0 评论 -
MCMC算法--Gibbs采样2:多元高斯分布的边际分布与条件分布推导
因为在下篇博客中会介绍Gibbs采样,代码示例用到的是多元高斯分布,所以对条件分布,边际分布公式必须写出来,所以博主整理了下。参考文献为:http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html 由于文献中有几处错误,博主特意修正了下,呈现在下文中: (BTW,当然大家也可以去我的资源下载pdf文件:https:...原创 2018-03-30 10:36:35 · 3325 阅读 · 1 评论 -
class教程(父类,子类)-- Python
类教程# -*- coding: utf-8 -*-"""Created on Fri Apr 26 13:05:18 2019@author: didi.lv"""class Person(object): def __init__(self, name, age): self.name = name self.age = age ...原创 2019-04-26 14:25:01 · 1998 阅读 · 1 评论 -
机器学习提高班---优化(梯度下降,最速下降,Newton下降算法)(week 3)
机器学习与凸优化讨论班于11月24日晚上在致远楼教室举办。在本次讨论班上,王文川同学为大家详细介绍了无约束优化问题的几种主要算法。首先,王文川同学为大家介绍了无约束优化问题的定义,并举了简单的例子,说明迭代算法解决该类问题的必要性,还讲解了强凸性假设和条件数的概念,为后面算法的收敛性做知识铺垫。然后,王文川同学介绍了通用的下降算法框架,包括初始点、搜索方向和步长三个要素。他又详细讲解了两种确定...原创 2018-11-25 18:42:27 · 1974 阅读 · 0 评论 -
机器学习提高班---优化和实战(week 1)
优化篇主讲人:廖云坤,微电子,大三,上海交通大学文档链接:文档下载地址机器学习实战篇主讲人:邹唯艺,数学,研究生,上海交通大学文档链接:文档下载地址...原创 2018-11-11 20:06:54 · 1187 阅读 · 0 评论 -
python调用matlab环境配置及应用
参考网址:http://ww2.mathworks.cn/help/matlab/matlab_external/install-the-matlab-engine-for-python.html指定文件夹里面进行操作,我们记为A文件夹:也就是说你调用的MATLAB文件和Python文件必须都在A文件夹里面,才能执行以下操作。\textbf{指定文件夹里面进行操作,我们记为A文件夹:也就是说你...原创 2018-10-16 22:31:10 · 1892 阅读 · 0 评论 -
用DCGAN训练并生成自己的图像集(含tensorflow代码)
训练自己的CT数据集原创 2018-07-27 16:23:01 · 7202 阅读 · 30 评论 -
绕开bug的feed_dict,用自己的数据集训练DCGAN
这篇代码与上两篇博客紧密相连,在上篇博客的注意部分提到,feed_dict需要喂numpy.array这种数据,但是我自己用的方法生成队列batch的数据类型为tensor,那么就没法喂到feed_dict里面了,所以查了各种Stack Overflow后发现,绕开feed_dict的形式,去掉placeholder在图创建的时候,直接输入数据,就可以了。具体细节见下面代码。 为了博文的完整性,...原创 2018-07-26 10:50:49 · 1094 阅读 · 0 评论 -
2018年上海交通大学数学建模竞赛暑期夏令营讲课课件(完整版)
图片所有权归本人所有!仅用作学术交流,禁止用作其他商业用途。 参考文献: python数据分析与挖掘实战原创 2018-07-14 22:46:57 · 1115 阅读 · 1 评论 -
tensorflow读取自己的数据集
注意: 我自己是用来训练医学图像生成新的医学图像的,所以我的label都是1(或者其他数值),因为在GAN训练的时候完全用不到,只有分类的问题才能用到。 如果训练分类问题下文中的代码就没用了,不过可以参考这个链接。 我的图片是黑白的,所以channel为1,并且图片保存的格式为png的,所以大家理解的时候请注意image=tf.image.decode_png(image_c...原创 2018-07-25 22:07:18 · 8233 阅读 · 0 评论 -
DCGANs: 用DCGAN生成图片(MNIST)
由于接下来要做医学图像的东西,老板先让我跑着TF来玩玩积累经验。 作为一个非计算机科班出身的人,写代码与理解代码的能力尤为重要。 本文根据链接进行了代码修改和体会,其中学到了很多。强调: 学习本博客一定要参考原博客的详细过程阐释作为基础,同时结合我代码里面的注释,才能达到最佳的学习效果。重点: 对于generator的理解,请参考链接paper,其中值得注意的是在U-...原创 2018-07-25 17:27:40 · 2340 阅读 · 0 评论 -
Inverse transform sampling反变换采样法
复制上海交大黄晨博士博客:https://blog.youkuaiyun.com/doublehhcc/article/details/81166502Goal:Let XX {\displaystyle X} be a random variable whose distribution can be described by the cumulative distribution functio...原创 2018-07-24 20:14:40 · 5751 阅读 · 0 评论 -
GAN的整理性报告(2018年5月)
参考文献: 大部分ppt来源于以下网站 https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ原创 2018-07-17 16:11:34 · 1045 阅读 · 0 评论 -
MCMC算法之模拟退火(Simulated annealing)算法(Matlab代码)
1. Introduction: Simulated annealing for global optimization:Instead of wanting to approximate p(x)p(x)p(x), we want to find the global maximum. For example, if p(x)p(x)p(x) is the likelihood or pos...原创 2018-03-26 18:05:59 · 3954 阅读 · 2 评论 -
MCMC算法之Metropolis-Hastings(MHs)算法(Matlab代码)
1. Problem:An MH step of invariant distribution p(x)p(x)p(x) and proposal distribution q(x∗|x)q(x∗|x)q(x ^*| x) involves sampling a candidate value x∗x∗x^* given the current value xxx according to q...原创 2018-03-25 22:25:33 · 17831 阅读 · 12 评论 -
MCMC算法--多元高斯分布Gibbs采样(Python代码)
1. Introduction:Gibbs Sampling is a MCMC method to draw samples from a potentially complicated, high dimensional distribution, where analytically, it’s hard to draw samples from it. The usual suspec...原创 2018-03-30 13:41:39 · 12405 阅读 · 1 评论 -
机器学习小组知识点33:马尔科夫蒙特卡罗采样算法2:(Gibbs )
参考文献: 1. https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/原创 2017-02-24 13:22:16 · 1422 阅读 · 0 评论 -
机器学习小组知识点32:马尔科夫蒙特卡罗采样算法1:(Metropolis-Hasting )
该文章几乎全部转载于参考文献1历史回顾:随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在原创 2017-02-24 13:15:17 · 2169 阅读 · 0 评论 -
机器学习小组知识点26:数据预处理之数据规约(Data Reduction)
数据归约策略 数据仓库中往往具有海量的数据,在其上进行数据分析与挖掘需要很长的时间 数据归约 用于从源数据中得到数据集的归约表示,它小的很多,但可以产生相同的(几乎相同的)效果 数据归约策略 维归约 数据压缩 数值归约 离散化和概念分层产生 用于数据归约的时间不应超过或“抵消”在归约后的数据上挖掘节省的时间 维归约通过删除不相干的额属性和维数原创 2016-12-06 16:24:58 · 3695 阅读 · 0 评论 -
机器学习小组知识点21:卡方分布(Chi-Square Distribution)
定义:如果我们的随机变量是标准正态分布(详见以前博客的高斯分布),那么多个随机变量的平方和服从的分布即为卡方分布。 X=Y21+Y22+⋯+Y2nX = Y_1^2+Y_2^2+\cdots +Y_n^2 其中,Y1,Y2,⋯,YnY_1,Y_2,\cdots,Y_n均为服从标准正态分布的随机变量,那么XX服从卡方分布,值得注意的是其中的nn即随机变量的个数成为卡方分布的自由度。概率密度函数fk原创 2016-11-30 17:22:48 · 3377 阅读 · 0 评论 -
机器学习小组知识点11:几何分布(Geometric Distribution )
适用环境:每一个随机变量都是伯努利分布,即相互独立,发生的情况只有两种情况。几何分布描述的是指多次伯努利实验成功的概率。记成功的概率为pp,失败的概率为1−p1-p或者记为qq。 举例说明,求连续投掷一枚硬币,求第一次出现上面的概率分布,实际上就是一个几何分布。概率分布函数:f(x,p)=px(1−p)x−1f(x,p)=p^x(1-p)^{x-1} 其中,xx代表成功的次数,取值为1,2,⋯⋯原创 2016-11-11 20:44:07 · 5140 阅读 · 2 评论 -
机器学习小组知识点13:泊松分布(Poisson Distribution)
适用环境:固定时间段内事件发生的概率。 例如: 某医院平均每小时出生3个婴儿 某公司平均每10分钟接到1个电话 某超市平均每天销售4包xx牌奶粉 某网站平均每分钟有2次访问 这些都是泊松分布。特点:我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个? 有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。 泊松分布原创 2016-11-12 16:30:53 · 2163 阅读 · 0 评论 -
机器学习小组知识点12:超几何分布(Hyper-Geometric Distribution)
超几何分布与二项分布的联系与区别 事实上, 超几何分布和二项分布确实有着密切的联系,但也有明显的区别。 课本对于超几何分布的定义是这样的:一般的,若一个随机变量X的分布列为,其中,则称X服从超几何分布,记为。其概率分布表为: 对于二项分布的定义是这样的:若随机变量X的分布列为,其中则称X服从参数为n,p的二项分布,记为。其概率分布表为: 超几何分布与二项分布都原创 2016-11-11 21:18:55 · 8988 阅读 · 2 评论 -
机器学习小组知识点10:多项式分布(Mutibinomial distribution)
介绍把二项分布公式再推广,就得到了多项分布。 二项分布的典型例子是扔硬币,硬币正面朝上概率为pp, 重复扔nn次硬币,kk次为正面的概率即为一个二项分布概率。(严格定义见二项分布中伯努利实验定义) 把二项扩展为多项就得到了多项分布。比如扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是16\frac{1}{6}(对应p1p_1至p6p_6,它们的值不一定都是16\f原创 2016-11-09 21:34:26 · 3490 阅读 · 0 评论 -
机器学习小组知识点4:批量梯度下降法(BGD)
详情请点击资源页进行下载 http://download.youkuaiyun.com/detail/eric2016_lv/9657140不用怕,免费!致谢:感谢肖凯博士为本资源的整理和归纳,另外感谢上海交通大学成清请,许唱两位同学对本资源的审核,再次致以诚挚的感谢!原创 2016-10-18 17:22:24 · 1156 阅读 · 0 评论