
数据挖掘
文章平均质量分 81
Eric2016_Lv
上海交大2014级硕士,2016级博士。兴趣方向:凸优化,数据分析,应用多元统计;机器学习,深度学习,数据挖掘,金融统计等。
展开
-
机器学习小组知识点26:数据预处理之数据规约(Data Reduction)
数据归约策略 数据仓库中往往具有海量的数据,在其上进行数据分析与挖掘需要很长的时间 数据归约 用于从源数据中得到数据集的归约表示,它小的很多,但可以产生相同的(几乎相同的)效果 数据归约策略 维归约 数据压缩 数值归约 离散化和概念分层产生 用于数据归约的时间不应超过或“抵消”在归约后的数据上挖掘节省的时间 维归约通过删除不相干的额属性和维数原创 2016-12-06 16:24:58 · 3695 阅读 · 0 评论 -
Tensorflow学习:ResNet代码(详细剖析)-待补充,非最终版本
参考链接:感谢此位博主的工作,本博主只做进一步的剖析,目的为掌握和具备二次开发能力。 http://blog.youkuaiyun.com/superman_xxx/article/details/65452735先贴代码:# -*- coding: utf-8 -*-"""Created on Thu Aug 17 16:24:55 2017Project: Residual Neural Netwo原创 2017-08-24 12:31:05 · 4745 阅读 · 3 评论 -
Tensorflow学习: 自编码器Tensorflow代码
# -*- coding: utf-8 -*-"""Created on Mon Aug 14 21:13:18 2017Project: Autoencoder 'Net'@author: DidiLvE-mail: Eric2014_Lv@sjtu.edu.cnReference: 《Tensorflow实战》 P59-P66"""import numpy as npimpor原创 2017-08-14 23:33:19 · 933 阅读 · 0 评论 -
Tensorflow学习: AlexNet练手版
# -*- coding: utf-8 -*-"""Created on Fri Aug 25 21:00:36 2017@author: DidiLv"""from datetime import datetimeimport mathimport timeimport tensorflow as tf# batch的大小, batch的数量batch_size = 32num_b原创 2017-08-25 23:45:20 · 856 阅读 · 0 评论 -
决策树之构建《机器学习实战》-py3.5
# -*- coding: utf-8 -*-"""Created on Tue Jan 30 09:48:53 2018Email: Eric2014_Lv@sjtu.edu.cn@author: DidiLvPython version: 3.5"""from math import *import operatordef createDataSet(): dat原创 2018-01-30 16:26:04 · 446 阅读 · 0 评论 -
主成分分析(数据分析课本例3.9.1)
Python代码:# -*- coding: utf-8 -*-"""Created on Tue Feb 6 14:37:21 2018E-mail = Eric2014_Lv@sjtu.edu.cn@author: DidiLv"""# 项目内容:线性统计模型(线性回归与方差分析)例3.9.1import numpy as npfrom sklearn import原创 2018-02-06 15:41:00 · 866 阅读 · 0 评论 -
MCMC算法--Gibbs采样1:分块对称阵的逆和行列式
由于Gibbs采样所需要条件分布,所以作为第一篇只是warm up,后面将会用到这次博客上的内容。本文的资料来源于参考链接:http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node6.html 但是,由于链接页面内容有几处错误,本人特意将其修改后整理成下面形式。线性代数不扎实的同学要仔细推一下: (BTW:我也上传了相应的p...原创 2018-03-30 10:26:53 · 710 阅读 · 0 评论 -
MCMC算法--Gibbs采样2:多元高斯分布的边际分布与条件分布推导
因为在下篇博客中会介绍Gibbs采样,代码示例用到的是多元高斯分布,所以对条件分布,边际分布公式必须写出来,所以博主整理了下。参考文献为:http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html 由于文献中有几处错误,博主特意修正了下,呈现在下文中: (BTW,当然大家也可以去我的资源下载pdf文件:https:...原创 2018-03-30 10:36:35 · 3325 阅读 · 1 评论 -
MCMC算法--多元高斯分布Gibbs采样(Python代码)
1. Introduction:Gibbs Sampling is a MCMC method to draw samples from a potentially complicated, high dimensional distribution, where analytically, it’s hard to draw samples from it. The usual suspec...原创 2018-03-30 13:41:39 · 12405 阅读 · 1 评论 -
MCMC算法之Metropolis-Hastings(MHs)算法(Matlab代码)
1. Problem:An MH step of invariant distribution p(x)p(x)p(x) and proposal distribution q(x∗|x)q(x∗|x)q(x ^*| x) involves sampling a candidate value x∗x∗x^* given the current value xxx according to q...原创 2018-03-25 22:25:33 · 17831 阅读 · 12 评论 -
MCMC算法之模拟退火(Simulated annealing)算法(Matlab代码)
1. Introduction: Simulated annealing for global optimization:Instead of wanting to approximate p(x)p(x)p(x), we want to find the global maximum. For example, if p(x)p(x)p(x) is the likelihood or pos...原创 2018-03-26 18:05:59 · 3954 阅读 · 2 评论 -
绕开bug的feed_dict,用自己的数据集训练DCGAN
这篇代码与上两篇博客紧密相连,在上篇博客的注意部分提到,feed_dict需要喂numpy.array这种数据,但是我自己用的方法生成队列batch的数据类型为tensor,那么就没法喂到feed_dict里面了,所以查了各种Stack Overflow后发现,绕开feed_dict的形式,去掉placeholder在图创建的时候,直接输入数据,就可以了。具体细节见下面代码。 为了博文的完整性,...原创 2018-07-26 10:50:49 · 1094 阅读 · 0 评论 -
Tensorflow学习: Slim tutorial
因为在写ResNet时候用到了Slim所以打算拿出时间将这个库写写。好久没时间锻炼一下翻译了。 参考链接(英文):https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slimTensorflow-SlimTF-Slim是一个TF中重要性不算很重要的一个包,它多用于来定义,训练和评估复杂的模型。TF-slim原创 2017-08-24 16:30:09 · 3070 阅读 · 0 评论 -
Tensorflow学习: one-hot编码
问题源于Udacity深度学习视频13,14课不解之处。 https://classroom.udacity.com/courses/ud730/lessons/6370362152/concepts/63713510510923一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意原创 2017-08-21 14:36:15 · 6383 阅读 · 0 评论 -
机器学习小组知识点25:数据预处理之数据集成与数据变换(Data Integration and Transformation)
数据集成 数据集成 将多个数据源中的数据整合到一个一个一致的存储中 模式集成 整合不同数据源中的元数据 实体识别问题:匹配来自不同数据源的现实世界的实体 检测并解决数据值的冲突 对现实世界中的同一实体,来自不同数据源的属性值是不同的 可能的原因:不同的数据表示,不同的度量等 上述在我看来等于废话…… 处理数据集成中的冗余数据 集成多原创 2016-12-06 15:11:53 · 2102 阅读 · 0 评论 -
机器学习小组知识点28:简单随机采样(Simple Random Sampling)
什么是简单随机抽样? 简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。 简单随机抽样是其它抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数N不太大时,实施起来并不困难。但在实际中,若N相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部N个单位的抽样框;其次用这种抽样得原创 2016-12-16 11:29:22 · 5646 阅读 · 0 评论 -
机器学习小组知识点29:离线等可能K采样(Offline Sampling)
抽样场景: 离线场景,已知对象总数N。单一对象抽样: 离线随机抽样定义: 从一个包含N个元素的集合中随机抽取任意一个元素算法实现: 从1到N中随机抽取一个整数 返回这个整数索引的元素代码实现(Python):import randomdef random_element(a,N) return a[ int(random.random() * N ) ]其中,原创 2016-12-16 22:45:57 · 1054 阅读 · 0 评论 -
机器学习小组知识点27:数据预处理之数据离散化(Data Discretization)
离散化和概念分层产生通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法,减少属性值的数量特别有好处。通常,这种方法是递归的,大量的时间花在每一步的数据排序上。因此,待排序的不同值越少,这种方法就应当越快。许多离散化技术都可以使用,以便提供属性值的分层或多维划分——概念分层对于给定的数值属性,概念分层定义了该属性的一个离原创 2016-12-15 15:00:18 · 6205 阅读 · 0 评论 -
机器学习小组知识点32:马尔科夫蒙特卡罗采样算法1:(Metropolis-Hasting )
该文章几乎全部转载于参考文献1历史回顾:随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在原创 2017-02-24 13:15:17 · 2169 阅读 · 0 评论 -
机器学习小组知识点33:马尔科夫蒙特卡罗采样算法2:(Gibbs )
参考文献: 1. https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/原创 2017-02-24 13:22:16 · 1422 阅读 · 0 评论 -
机器学习小组知识点34:K-means聚类
监督学习和非监督学习前情回顾:在聚类问题中,给定一个训练集,算法根据某种策略将训练集分成若干类。在监督式学习中,训练集中每一个数据都有一个标签,但是在如果分类问题中没有标签,我们可以将聚类算法称之为非监督式学习算法。这两种算法最大的区别还在于:监督式学习有标签,而非监督式学习没有标签。那么这里可以理解为标签实际上就是一种监督性质的分类,而无标签根据分布性质,那么我们称之为聚类。感兴趣同学可以查阅半监原创 2017-03-10 16:30:36 · 892 阅读 · 0 评论 -
机器学习小组知识点35:二分K-means聚类
常规的KMeans算法的误差通常只能收敛到局部最小,在此,引入一种称为二分K-Means(bisecting kmeans)的算法,相较于常规的KMeans,二分KMeans不急于一来就随机KK个聚类中心,而是首先把所有点归为一个簇,然后将该簇一分为二。计算各个所得簇的代价函数(即均方误差),选择误差最大的簇再进行划分(即最大程度地减少误差),重复该过程直至达到期望的簇数目。二分K-means算法的原创 2017-03-10 17:13:24 · 1066 阅读 · 0 评论 -
机器学习小组知识点36:FCM聚类
Reference: https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html原创 2017-03-27 20:24:33 · 984 阅读 · 0 评论 -
Tensorflow学习:简单实现卷积神经网络(CNN)
# -*- coding: utf-8 -*-"""Created on Thu Aug 17 16:24:55 2017Project: Convolution Neural Network (with two convolution layers, one full conection layer and one softmax layer)E-mail: Eric2014_Lv@sjt原创 2017-08-18 23:01:41 · 917 阅读 · 0 评论 -
Python对pdf中的关键字过滤(pdfminer3k或pdfminer使用)
最近在实习,老板一下子发给了我120份研报,然而很多都是没用的。聪明的大脑一定要想办法让电脑帮助自己完成简单的工作!下面是Python筛选含有“”丙烯“”关键字的程序,由于文件的保密性只能贴出代码。注意:pip install pdfminer3k而不是pdfminer导入的时候名字是pdfminer,原因我才是python版本的问题# -*- coding: utf-8 -*-"...原创 2019-05-10 18:59:16 · 2959 阅读 · 3 评论