LandH的Blog-优快云博客

原创 2020-12-07

Stata按照某一变量的最大值来取另一个变量Stata操作随访数据的时候可能会遇到想取最后一次随访数据的问题，即针对每个人取随访次数=max时候的另一个变量值。举例如下：ID是编号（人），visit是随访次数，SE是屈光度。想取出每个人最后一次随访时的屈光度，有两种办法：方法1:bysort id (visit):keep if _n==_N方法2:bys id: egen a=max(visit)gen b=SE if visit==a方法1会删除其他所有数据，只保留最后一次的数据；方

2020-12-07 16:07:35 1480

原创 STATA学习笔记之按照某个变量的类别分组排序

STATA按照某个变量的类别分组排序比如要按照var2这个变量的类别进行分组和排序，如下图所示：四种情况：如果需要生成n，命令是：by var2, sort: gen n=_n如果需要生成order2，命令是：by var2, sort: gen order2=_N如果需要生成order,命令是：sort var2gen order=_n如果需要生成nnn,命令是：sort var2egen nnn=group(var2)插入链接与图片链接: link.图片: 带尺寸的图片

2020-08-07 08:32:03 23041

原创 [机器学习]三行代码快速划分交叉训练中训练集和验证集

使用numpy.random.choice()和set()快速划分交叉训练数据集之前在划分训练集和验证集时，都是手工随机生成index，很笨。学到的新方法如下：import numpy as np# 正态分布生成原始数据x = np.random.random.normal(1,0.1,100)# 按8:2分割数据x_train_index = np.random.choi...

2018-03-01 11:42:06 3559

原创 linux 常用命令查询手册（持续更新）

linux 常用命令查询手册删除文件删除文件夹以及文件夹下所有文件：rm -rf filedir删除文件夹下所有文件保留文件夹：rm -rf /filedir/*搜索统计目标目录下“xx”关键字的数量：find *|grep “xx”|wc -l创建创建目录：mkdir创建文件：touch移动移动文件：mv from_path t...

2018-02-23 13:39:40 653

原创 Python编程技巧汇总手册（持续更新）

记录下平时发现的能简化Python编程的函数、语法和格式等。一、巧用.format发现有这个语法简直如获珍宝！！！下面是一些运用举例1.替换对应序号替换大括号内为索引序号，format内参数一一对应变量要替换的内容>>>'hello{0}_s{1}_s{2}_s{3}'.format('!','A','B','C')'hell...

2018-02-23 13:38:44 844

原创机器学习中的敏感性和特异性的概念

敏感性 Sensitivity敏感性又称真阳性率，就是发病之后，你的诊断方法对疾病的敏感程度（识别能力）。敏感性越高，漏诊概率越低。特异性 Specificity特异性又称真阴性率，不发病（我们这里称之为健康）的特征是有别于发病的特征的，我们利用这些差异避免误诊，那么诊断标准对于这些差异利用的如何就用特异性来表示。特异性越高，确诊概率越高。举个例子样本...

2018-02-23 13:35:54 29391 1

原创 Deep Learning实践中报错查询手册（持续更新）

ResourceExhaustedError: OOM when allocating tensor with shape在使用keras训练模型时报错，问题原因：GPU显存不足，解决方案有： 1. 终端使用nvidia-smi命令查看显卡状态，将其他占用进程kill掉。 2. 将训练的batch_size调小MemoryError在将数据归一化时报错，问题原因：数据s...

2018-02-23 13:21:03 694

原创 [Keras] 使用Keras编写自定义网络层（layer）

Keras提供众多常见的已编写好的层对象，例如常见的卷积层、池化层等，我们可以直接通过以下代码调用：# 调用一个Conv2D层from keras import layersconv2D = keras.layers.convolutional.Conv2D(filters,\kernel_size, \strides=(1, 1), \padding='valid', \.....

2018-02-09 10:27:34 37124 4

转载 [PYTHON] python_如何去除字符串中不想要的字符

原文：python_如何去除字符串中不想要的字符？问题：　　　　过滤用户输入中前后多余的空白字符　　　　　　‘ ++++abc123--- ‘　　　　过滤某windows下编辑文本中的’\r’:　　　　　　‘hello world \r\n’　　　　去掉文本中unicode组合字符，音调　　　　　　"Zhào Qián Sūn Lǐ Zh

2018-01-27 12:27:27 6871

转载 [tensorflow] tensorflow 1.0 学习：模型的保存与恢复(Saver)

转自：http://www.cnblogs.com/denny402/p/6940134.htmltensorflow 1.0 学习：模型的保存与恢复(Saver)将训练好的模型参数保存起来，以便以后进行验证或测试，这是我们经常要做的事情。tf里面提供模型保存的是tf.train.Saver()模块。模型保存，先要创建一个Saver对象：如saver=tf.train.Saver()在创建这个Sa...

2018-01-25 18:00:30 322

原创 [machine learning] 独热编码one hot encoding 及 MNIST label 独热编码范例

1. 为什么要用one hot encoding在实际场景中，变量非连续数值，而是离散数据时，采用暴力赋值，会给数据一个潜在的排序权重。换言之，各向量之间的距离不等。例如：性别（男，女），我们可以暴力转码为（0，1），没问题。但是性别（男，女，人妖），如果暴力转码为（0，1，2），“男”／“女”、“男”／“人妖”间的向量距离不等，就提供了一个潜在的大小排序，会影响输出结果。为了解决上述问题，其中一...

2018-01-24 13:53:49 2886

原创 [tensorflow] tf.nn.sparse_softmax_cross_entropy_with_logits的使用方法及常见报错

函数说明在计算交叉熵之前，通常要用到softmax层来计算结果的概率分布。因为softmax层并不会改变最终的分类结果（排序），所以，tensorflow将softmax层与交叉熵函数进行封装，形成一个函数方便计算：tf.nn.softmax_cross_entropy_with_logits（logits= , labels=）。为了加速计算过程，针对只有一个正确答案（例如MNIST识别）的分类...

2018-01-23 13:19:36 6278 1

原创 [python] jupyter怎么修改主题

# install jupyterthemespip install jupyterthemes# upgrade to latest versionpip install --upgrade jupyterthemes原文：https://github.com/dunovank/jupyter-themes

2018-01-22 16:14:11 810

转载 [python] jupyter notebook 的27个小技巧

Jupyter notebook, 前身是 IPython notebook, 它是一个非常灵活的工具，有助于帮助你构建很多可读的分析，你可以在里面同时保留代码，图片，评论，公式和绘制的图像。Jupyter具有非常强的可扩展性，支持很多编程语言，并且易于部署到你的个人电脑和几乎所有的服务器上 -- 你只需要使用ssh或http接入即可。最重要的是，它完全免费。Jupyter默认设置使用

2018-01-22 10:56:40 2914

原创 [python] numpy 三行代码打乱训练数据（保持label和data的对应关系不变）

需求我有两个数组（ ndarray ）：train_datasets 和 train_labels。其中，train_datasets 的每一行和 train_labels 是一一对应的。现在我要将数组打乱并用于训练，打乱后要求两者的行与行之间必须保持原来的对应关系。实现一般的实现思路，应该是先将 train_datasets（或 train_labels ）打乱，并记录被打乱的行号，...

2018-01-21 03:08:20 6754 3

转载 [Deep Learning] RELU 激活函数及其他相关的函数

本博客仅为作者记录笔记之用，不免有很多细节不对之处。还望各位看官能够见谅，欢迎批评指正。更多相关博客请猛戳：http://blog.youkuaiyun.com/cyh_24如需转载，请附上本文链接：http://blog.youkuaiyun.com/cyh_24/article/details/50593400日常 coding 中，我们会很自然的使用一些激活函数，比如：sigmoid、ReLU等等。不过好像忘了问自

2018-01-18 17:44:05 803

转载 [Python] Jupyter Notebook 的快捷键

Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在

2018-01-18 17:17:58 556

原创 [DeepLearning] DenseNets学习day1：（综述PPT）DenseNets简介_An Introduction of DenseNets

转载请注明：出处：http://mp.blog.youkuaiyun.com/postedit/79075314作者：Chi Liu请勿商用ppt下载链接：http://download.youkuaiyun.com/download/u013084616/10208262references下载链接：http://download.youkuaiyun.com/download/u013084616/10208

2018-01-16 15:35:39 556

转载 [Machine Learning] 逻辑回归应用之Kaggle泰坦尼克之灾

2018-01-16 15:12:58 856

转载 [python] pandas plot( )画图命令总结

学习pandas数据框的绘图，轻松搞定各种图画法。DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, use_index=True, title=None, grid=None, legend=Tru

2018-01-15 14:45:32 60408

原创 [python] pandas.Series.plot( )报错“name _converter is not defined”

jupyter 使用 pandas.Series.plot( )时候报错“name _converter is not defined”是因为有其他进程占用，关掉其他进程即可。

2018-01-15 14:00:02 3930

转载 [python] matplotlib中文乱码解决办法

1.环境查看a.系统版本查看[hadoop@p168 ~]$ cat /etc/redhat-releaseCentOS Linux release 7.2.1511 (Core) b.系统中文字体查看[hadoop@p168 ~]$ fc-list :lang=zh/usr/share/fonts/wqy-microhei/wqy-microhei.ttc:

2018-01-15 13:22:03 540

转载 [Deep Learning] DenseNet 的“what”、“why”和“how”

转自http://www.sohu.com/a/161639222_114877CVPR 2017最佳论文作者解读：DenseNet 的“what”、“why”和“how”｜CVPR 2017DenseNet 的基本结构DenseNet 是一种具有密集连接的卷积神经网络。在该网络中，任何两层之间都有直接的连接，也就是说，网络每一层的输入都是前面所有层输出的并

2018-01-12 15:57:42 445

转载 [Deep Learning] ResNets、HighwayNets、DenseNets：用 TensorFlow 实现超深度神经网络

ResNets、HighwayNets、DenseNets：用 TensorFlow 实现超深度神经网络在许多任务中，神经网络越深，性能就越好。最近几年神经网络的趋势是越来越深。几年前最先进的神经网络还仅有12层深，现在几百层深的神经网络已经不是稀奇事了。本文中作者介绍了三个非常深的神经网络，分别是ResNet、HighwayNet和DenseNet，以及它们在Tensorflow上的实现

2018-01-12 15:34:58 1215

转载 [Deep Learning] 用TensorFlow实现ResNeXt和DenseNet

原文来源：GitHubResNeXt-Tensorflow使用Cifar10数据集的ResNeXt在Tensorflow上的实现。如果你想查看原作者的代码，请参考此链接https://github.com/facebookresearch/ResNeXt要求Tensorflow 1.xPython 3.xtflearn（如果你觉得全局

2018-01-12 15:29:56 7696

转载 [Deep Learning] What`s batch normalization

本文转载自：http://blog.youkuaiyun.com/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization，简称BN，来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，是一篇很

2018-01-12 11:02:33 186

原创 [Stata] 分类变量画直方图（频率分布）

例如，stata中导入了问卷的数据，其中一个问题和选项如下：Q14. 需要何人推荐你才考虑使用本产品？1. 医生2. 亲戚/朋友3. 不需推荐我也会考虑使用4. 我不会使用这个产品stata中的导入的本题答案为文字，那么，如何把这个string变量（变量名：q14）的各个亚类的频率分布画成柱状图？1. 一步变成numeric： encode q14, gener

2018-01-10 16:56:54 32421

转载 [Deeplearning] Gradient vanish

转载自哈工大SCIR（公众号）为了弄清楚为何会出现消失的梯度，来看看一个极简单的深度神经网络：每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络：

2018-01-10 14:33:01 370

转载 [Deeplearning] Highway Network & 几篇文章证明了优化深层神经网络十分困难

随着神经网络的发展，网络的深度逐渐加深（更深的层数以及更小的感受野，能够提高网络分类的准确性(Szegedy et al.,2014;Simonyan & Zisserman,2014)），网络的训练也就变得越来越困难。Highway Networks就是一种解决深层次网络训练困难的网络框架。以下这几篇文章证明了优化深层神经网络十分困难（写文章的时候肯定用得到，先记下）

2018-01-10 14:29:13 923

转载病历智能处理引擎的设计、实现和应用

作者简介：吴大帅，新屿算法工程师，曾供职于宅米网、新达达，从事系统架构设计、算法设计等工作。李智慧，《大型网站技术架构：核心原理与案例分析》作者，从事大型网站、分布式系统、大数据方面的研发工作。责编：钱曙光（qianshg@youkuaiyun.com）声明：本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅《程序员》。人工智能的到来驱动着诸多领域的变

2017-12-25 21:01:58 495 1

转载 python：numpy详细教程

转自 http://blog.chinaunix.net/uid-21633169-id-4408596.html基础篇NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes)，轴的个数叫做秩(rank)。例如，在3D空间一个点的坐标[1, 2

2017-12-08 11:46:02 2777

转载 Python：lambda表达式学习总结

一、使用方法原文：http://blog.youkuaiyun.com/imzoer/article/details/8667176lambda只是一个表达式，函数体比def简单很多。lambda的主体是一个表达式，而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。lambda表达式是起到一个函数速写的作用。允许在代码内嵌入一个函数的定义。如下例子：

2017-12-08 10:01:12 1637

原创 STATA：坐标轴显示小数点前面的0

正常画图之后，在图片上方横标目里选择edit（画笔那个），步骤如下：1. 双击Y轴，进入坐标轴编辑；2. 选择label properties；3. 选择format 右边的...方块；4. 选择fixed numeric；5. digits right of decimal选择你要保留几位小数然后选择OK， apply就可以了。

2017-10-16 10:18:42 10200

原创 R语言：for循环使用小结

基本结构展示：vals =c(5,6,7)for(v in vals){ print(v)}#即把大括号里的内容对vals里的每一个值都循环run一遍实例展示：1. paste() 命令是把几个字符连接起来，如paste("A","B","C",sep=" ")得到的就是“A B C”，在次基础上写如下for loop:partnumber = c

2017-06-26 15:16:37 139105 5

原创 R语言：if-else条件判断及any、all、na.omit使用方法

基本结构展示：if (7 print("Seven is less than ten")} else{ print("seven is more than ten")} 实例演示：Titanic=read.csv("https://goo.gl/4Gqsnz") #从网络读取数据1. any() #any代表只要有任一值符合，即为T

2017-06-26 15:03:45 20424

原创 R语言：ggplot绘图常用方法

1. 安装和读取： install.packages("ggplot2") library（ggplot2）2. 画点图（泰坦尼克数据）： Titanic=read.csv("https://goo.gl/4Gqsnz") #从网络读取数据 ggplot(data=Titanicclean,aes(x=A

2017-06-26 14:57:04 9857

原创 R语言：如何声明函数

R写functions的格式如下：数据库名称mydata= function（AA）｛ BB=AA的函数 return(BB)｝举例如下，kelvin温度和cellsius温度的换算：kelvin_to_cellsius=function(AA){ BB=(AA-273.15)*(9/5)+32 return(BB

2017-06-26 14:28:33 1202

原创 R语言：数据管理常用命令

1. 合并数据库横项合并： data3纵向合并：data3 2. 变量重新命名data1 names(data1)[2:4] 3. 查重去重unique(data1) //整个数据库去重data1[!duplicated(data1$height), ] //去除身高重复的值或：index data2 4. 变量分组并创建

2017-06-08 13:25:42 926

原创 R语言：截取变量中指定位置的若干个字符

例如，某数据库如下，需要把第二个变量File里面的ID号码提取出来作为一个新变量，ID号码都是T开头之后的十一位数（如T-20-252-02）。命令如下：b=readWorksheetFromFile(temp[11],sheet=1) //读入excel数据，命名为数据库b，这里temp[11]是读入temp中第11个文件名对应的文件attach(b) /

2017-05-29 14:45:28 14088

原创 R语言：批量循环读取一系列excel文件

例如有20个excel文件分别代表20个亚组的数据，文件名为亚组名P01-P20，每个文件中的变量个数和名称等都是相同的，可通过以下命令实现一次性读取20个excel，并生成一个新变量提示来自哪个亚组（同时展示如何读取每个excel第二列数据的前11个字符生成一个新变量id）。例如P01数据如下：首先，读取excel文件先要安装package: XLConn

2017-05-26 13:34:39 20340

文献打包-An Introduction Of Densely Connected Convolutional Networks

DenseNet综述介绍_An Introduction Of Densely Connected Convolutional Networks.ppt 引用的参考文献，包含DeepLearning学习重要的几种网络的发表paper。 Deep Residual Learning for Image Recognition [ResNet] Densely Connected Convolutional Networks [DenseNet] Going deeper with convolutions [GoogleNet] Gradient-Based Learning Applied to Document Recognition [LeNet-5] ImageNet Classification with Deep Convolutional Neural Networks [ALexNet] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION [VGGNet]

2018-01-16

DenseNet综述介绍_An Introduction Of Densely Connected Convolutional Networks

介绍DenseNets的PPT，包括背景介绍、原理、优缺点、相关研究综述、启发、下一步计划、扩展阅读。内容翔实，附带参考文献打包。

2018-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人