- 博客(49)
- 资源 (2)
- 收藏
- 关注
原创 2020-12-07
Stata按照某一变量的最大值来取另一个变量Stata操作随访数据的时候可能会遇到想取最后一次随访数据的问题,即针对每个人取随访次数=max时候的另一个变量值。举例如下:ID是编号(人),visit是随访次数,SE是屈光度。想取出每个人最后一次随访时的屈光度,有两种办法:方法1:bysort id (visit):keep if _n==_N方法2:bys id: egen a=max(visit)gen b=SE if visit==a方法1会删除其他所有数据,只保留最后一次的数据;方
2020-12-07 16:07:35
1480
原创 STATA学习笔记之按照某个变量的类别分组排序
STATA按照某个变量的类别分组排序比如要按照var2这个变量的类别进行分组和排序,如下图所示:四种情况:如果需要生成n,命令是:by var2, sort: gen n=_n如果需要生成order2,命令是:by var2, sort: gen order2=_N如果需要生成order,命令是:sort var2gen order=_n如果需要生成nnn,命令是:sort var2egen nnn=group(var2)插入链接与图片链接: link.图片: 带尺寸的图片
2020-08-07 08:32:03
23041
原创 [机器学习]三行代码快速划分交叉训练中训练集和验证集
使用numpy.random.choice()和set()快速划分交叉训练数据集之前在划分训练集和验证集时,都是手工随机生成index,很笨。学到的新方法如下:import numpy as np# 正态分布生成原始数据x = np.random.random.normal(1,0.1,100)# 按8:2分割数据x_train_index = np.random.choi...
2018-03-01 11:42:06
3559
原创 linux 常用命令查询手册(持续更新)
linux 常用命令查询手册删除文件删除文件夹以及文件夹下所有文件:rm -rf filedir删除文件夹下所有文件保留文件夹:rm -rf /filedir/*搜索统计目标目录下“xx”关键字的数量:find *|grep “xx”|wc -l创建创建目录:mkdir创建文件:touch移动移动文件:mv from_path t...
2018-02-23 13:39:40
653
原创 Python编程技巧汇总手册(持续更新)
记录下平时发现的能简化Python编程的函数、语法和格式等。一、巧用.format发现有这个语法简直如获珍宝!!!下面是一些运用举例1.替换对应序号替换大括号内为索引序号,format内参数一一对应变量要替换的内容>>>'hello{0}_s{1}_s{2}_s{3}'.format('!','A','B','C')'hell...
2018-02-23 13:38:44
844
原创 机器学习中的敏感性和特异性的概念
敏感性 Sensitivity敏感性又称真阳性率,就是发病之后,你的诊断方法对疾病的敏感程度(识别能力)。敏感性越高,漏诊概率越低。特异性 Specificity特异性又称真阴性率,不发病(我们这里称之为健康)的特征是有别于发病的特征的,我们利用这些差异避免误诊,那么诊断标准对于这些差异利用的如何就用特异性来表示。特异性越高,确诊概率越高。举个例子 样本...
2018-02-23 13:35:54
29391
1
原创 Deep Learning实践中报错查询手册(持续更新)
ResourceExhaustedError: OOM when allocating tensor with shape在使用keras训练模型时报错,问题原因:GPU显存不足,解决方案有: 1. 终端使用nvidia-smi命令查看显卡状态,将其他占用进程kill掉。 2. 将训练的batch_size调小MemoryError在将数据归一化时报错,问题原因:数据s...
2018-02-23 13:21:03
694
原创 [Keras] 使用Keras编写自定义网络层(layer)
Keras提供众多常见的已编写好的层对象,例如常见的卷积层、池化层等,我们可以直接通过以下代码调用:# 调用一个Conv2D层from keras import layersconv2D = keras.layers.convolutional.Conv2D(filters,\kernel_size, \strides=(1, 1), \padding='valid', \.....
2018-02-09 10:27:34
37124
4
转载 [PYTHON] python_如何去除字符串中不想要的字符
原文:python_如何去除字符串中不想要的字符?问题: 过滤用户输入中前后多余的空白字符 ‘ ++++abc123--- ‘ 过滤某windows下编辑文本中的’\r’: ‘hello world \r\n’ 去掉文本中unicode组合字符,音调 "Zhào Qián Sūn Lǐ Zh
2018-01-27 12:27:27
6871
转载 [tensorflow] tensorflow 1.0 学习:模型的保存与恢复(Saver)
转自:http://www.cnblogs.com/denny402/p/6940134.htmltensorflow 1.0 学习:模型的保存与恢复(Saver)将训练好的模型参数保存起来,以便以后进行验证或测试,这是我们经常要做的事情。tf里面提供模型保存的是tf.train.Saver()模块。模型保存,先要创建一个Saver对象:如saver=tf.train.Saver()在创建这个Sa...
2018-01-25 18:00:30
322
原创 [machine learning] 独热编码one hot encoding 及 MNIST label 独热编码范例
1. 为什么要用one hot encoding在实际场景中,变量非连续数值,而是离散数据时,采用暴力赋值,会给数据一个潜在的排序权重。换言之,各向量之间的距离不等。例如:性别(男,女),我们可以暴力转码为(0,1),没问题。但是性别(男,女,人妖),如果暴力转码为(0,1,2),“男”/“女”、“男”/“人妖”间的向量距离不等,就提供了一个潜在的大小排序,会影响输出结果。为了解决上述问题,其中一...
2018-01-24 13:53:49
2886
原创 [tensorflow] tf.nn.sparse_softmax_cross_entropy_with_logits的使用方法及常见报错
函数说明在计算交叉熵之前,通常要用到softmax层来计算结果的概率分布。因为softmax层并不会改变最终的分类结果(排序),所以,tensorflow将softmax层与交叉熵函数进行封装,形成一个函数方便计算:tf.nn.softmax_cross_entropy_with_logits(logits= , labels=)。为了加速计算过程,针对只有一个正确答案(例如MNIST识别)的分类...
2018-01-23 13:19:36
6278
1
原创 [python] jupyter怎么修改主题
# install jupyterthemespip install jupyterthemes# upgrade to latest versionpip install --upgrade jupyterthemes原文:https://github.com/dunovank/jupyter-themes
2018-01-22 16:14:11
810
转载 [python] jupyter notebook 的27个小技巧
Jupyter notebook, 前身是 IPython notebook, 它是一个非常灵活的工具,有助于帮助你构建很多可读的分析,你可以在里面同时保留代码,图片,评论,公式和绘制的图像。Jupyter具有非常强的可扩展性,支持很多编程语言,并且易于部署到你的个人电脑和几乎所有的服务器上 -- 你只需要使用ssh或http接入即可。最重要的是,它完全免费。Jupyter默认设置使用
2018-01-22 10:56:40
2914
原创 [python] numpy 三行代码打乱训练数据(保持label和data的对应关系不变)
需求我有两个数组( ndarray ):train_datasets 和 train_labels。其中,train_datasets 的每一行和 train_labels 是一一对应的。现在我要将数组打乱并用于训练,打乱后要求两者的行与行之间必须保持原来的对应关系。实现一般的实现思路,应该是先将 train_datasets(或 train_labels )打乱,并记录被打乱的行号,...
2018-01-21 03:08:20
6754
3
转载 [Deep Learning] RELU 激活函数及其他相关的函数
本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。更多相关博客请猛戳:http://blog.youkuaiyun.com/cyh_24如需转载,请附上本文链接:http://blog.youkuaiyun.com/cyh_24/article/details/50593400日常 coding 中,我们会很自然的使用一些激活函数,比如:sigmoid、ReLU等等。不过好像忘了问自
2018-01-18 17:44:05
803
转载 [Python] Jupyter Notebook 的快捷键
Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在
2018-01-18 17:17:58
556
原创 [DeepLearning] DenseNets学习day1:(综述PPT)DenseNets简介_An Introduction of DenseNets
转载请注明:出处:http://mp.blog.youkuaiyun.com/postedit/79075314作者:Chi Liu请勿商用ppt下载链接:http://download.youkuaiyun.com/download/u013084616/10208262references下载链接:http://download.youkuaiyun.com/download/u013084616/10208
2018-01-16 15:35:39
556
转载 [Machine Learning] 逻辑回归应用之Kaggle泰坦尼克之灾
主要学习数据处理的思路。作者: 寒小阳 时间:2015年11月。 出处:http://blog.youkuaiyun.com/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blo
2018-01-16 15:12:58
856
转载 [python] pandas plot( )画图命令总结
学习pandas数据框的绘图,轻松搞定各种图画法。DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, use_index=True, title=None, grid=None, legend=Tru
2018-01-15 14:45:32
60408
原创 [python] pandas.Series.plot( )报错“name _converter is not defined”
jupyter 使用 pandas.Series.plot( )时候报错“name _converter is not defined”是因为有其他进程占用,关掉其他进程即可。
2018-01-15 14:00:02
3930
转载 [python] matplotlib中文乱码解决办法
1.环境查看a.系统版本查看[hadoop@p168 ~]$ cat /etc/redhat-releaseCentOS Linux release 7.2.1511 (Core) b.系统中文字体查看[hadoop@p168 ~]$ fc-list :lang=zh/usr/share/fonts/wqy-microhei/wqy-microhei.ttc:
2018-01-15 13:22:03
540
转载 [Deep Learning] DenseNet 的“what”、“why”和“how”
转自http://www.sohu.com/a/161639222_114877CVPR 2017最佳论文作者解读:DenseNet 的“what”、“why”和“how”|CVPR 2017DenseNet 的基本结构DenseNet 是一种具有密集连接的卷积神经网络。在该网络中,任何两层之间都有直接的连接,也就是说,网络每一层的输入都是前面所有层输出的并
2018-01-12 15:57:42
445
转载 [Deep Learning] ResNets、HighwayNets、DenseNets:用 TensorFlow 实现超深度神经网络
ResNets、HighwayNets、DenseNets:用 TensorFlow 实现超深度神经网络在许多任务中,神经网络越深,性能就越好。最近几年神经网络的趋势是越来越深。几年前最先进的神经网络还仅有12层深,现在几百层深的神经网络已经不是稀奇事了。本文中作者介绍了三个非常深的神经网络,分别是ResNet、HighwayNet和DenseNet,以及它们在Tensorflow上的实现
2018-01-12 15:34:58
1215
转载 [Deep Learning] 用TensorFlow实现ResNeXt和DenseNet
原文来源:GitHubResNeXt-Tensorflow使用Cifar10数据集的ResNeXt在Tensorflow上的实现。如果你想查看原作者的代码,请参考此链接https://github.com/facebookresearch/ResNeXt要求Tensorflow 1.xPython 3.xtflearn(如果你觉得全局
2018-01-12 15:29:56
7696
转载 [Deep Learning] What`s batch normalization
本文转载自:http://blog.youkuaiyun.com/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization,简称BN,来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,是一篇很
2018-01-12 11:02:33
186
原创 [Stata] 分类变量画直方图(频率分布)
例如,stata中导入了问卷的数据,其中一个问题和选项如下:Q14. 需要何人推荐你才考虑使用本产品?1. 医生2. 亲戚/朋友3. 不需推荐我也会考虑使用4. 我不会使用这个产品stata中的导入的本题答案为文字,那么,如何把这个string变量(变量名:q14)的各个亚类的频率分布画成柱状图?1. 一步变成numeric: encode q14, gener
2018-01-10 16:56:54
32421
转载 [Deeplearning] Gradient vanish
转载自哈工大SCIR(公众号) 为了弄清楚为何会出现消失的梯度,来看看一个极简单的深度神经网络:每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络:
2018-01-10 14:33:01
370
转载 [Deeplearning] Highway Network & 几篇文章证明了优化深层神经网络十分困难
随着神经网络的发展,网络的深度逐渐加深(更深的层数以及更小的感受野,能够提高网络分类的准确性(Szegedy et al.,2014;Simonyan & Zisserman,2014)),网络的训练也就变得越来越困难。Highway Networks就是一种解决深层次网络训练困难的网络框架。 以下这几篇文章证明了优化深层神经网络十分困难(写文章的时候肯定用得到,先记下)
2018-01-10 14:29:13
923
转载 病历智能处理引擎的设计、实现和应用
作者简介:吴大帅,新屿算法工程师,曾供职于宅米网、新达达,从事系统架构设计、算法设计等工作。 李智慧,《大型网站技术架构:核心原理与案例分析》作者,从事大型网站、分布式系统、大数据方面的研发工作。 责编:钱曙光(qianshg@youkuaiyun.com) 声明:本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》。人工智能的到来驱动着诸多领域的变
2017-12-25 21:01:58
495
1
转载 python:numpy详细教程
转自 http://blog.chinaunix.net/uid-21633169-id-4408596.html基础篇NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。例如,在3D空间一个点的坐标[1, 2
2017-12-08 11:46:02
2777
转载 Python:lambda表达式学习总结
一、使用方法原文:http://blog.youkuaiyun.com/imzoer/article/details/8667176lambda只是一个表达式,函数体比def简单很多。lambda的主体是一个表达式,而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。lambda表达式是起到一个函数速写的作用。允许在代码内嵌入一个函数的定义。如下例子:
2017-12-08 10:01:12
1637
原创 STATA:坐标轴显示小数点前面的0
正常画图之后,在图片上方横标目里选择edit(画笔那个),步骤如下:1. 双击Y轴,进入坐标轴编辑;2. 选择label properties;3. 选择format 右边的...方块;4. 选择fixed numeric;5. digits right of decimal选择你要保留几位小数然后选择OK, apply就可以了。
2017-10-16 10:18:42
10200
原创 R语言:for循环使用小结
基本结构展示:vals =c(5,6,7)for(v in vals){ print(v)}#即把大括号里的内容对vals里的每一个值都循环run一遍实例展示:1. paste() 命令是把几个字符连接起来,如paste("A","B","C",sep=" ")得到的就是“A B C”,在次基础上写如下for loop:partnumber = c
2017-06-26 15:16:37
139105
5
原创 R语言:if-else条件判断及any、all、na.omit使用方法
基本结构展示:if (7 print("Seven is less than ten")} else{ print("seven is more than ten")} 实例演示:Titanic=read.csv("https://goo.gl/4Gqsnz") #从网络读取数据1. any() #any代表只要有任一值符合,即为T
2017-06-26 15:03:45
20424
原创 R语言:ggplot绘图常用方法
1. 安装和读取: install.packages("ggplot2") library(ggplot2)2. 画点图(泰坦尼克数据): Titanic=read.csv("https://goo.gl/4Gqsnz") #从网络读取数据 ggplot(data=Titanicclean,aes(x=A
2017-06-26 14:57:04
9857
原创 R语言:如何声明函数
R写functions的格式如下:数据库名称mydata= function(AA){ BB=AA的函数 return(BB)}举例如下,kelvin温度和cellsius温度的换算:kelvin_to_cellsius=function(AA){ BB=(AA-273.15)*(9/5)+32 return(BB
2017-06-26 14:28:33
1202
原创 R语言:数据管理常用命令
1. 合并数据库横项合并: data3纵向合并:data3 2. 变量重新命名data1 names(data1)[2:4] 3. 查重去重unique(data1) //整个数据库去重data1[!duplicated(data1$height), ] //去除身高重复的值或:index data2 4. 变量分组并创建
2017-06-08 13:25:42
926
原创 R语言:截取变量中指定位置的若干个字符
例如,某数据库如下,需要把第二个变量File里面的ID号码提取出来作为一个新变量,ID号码都是T开头之后的十一位数(如T-20-252-02)。命令如下:b=readWorksheetFromFile(temp[11],sheet=1) //读入excel数据,命名为数据库b,这里temp[11]是读入temp中第11个文件名对应的文件attach(b) /
2017-05-29 14:45:28
14088
原创 R语言:批量循环读取一系列excel文件
例如有20个excel文件分别代表20个亚组的数据,文件名为亚组名P01-P20,每个文件中的变量个数和名称等都是相同的,可通过以下命令实现一次性读取20个excel,并生成一个新变量提示来自哪个亚组(同时展示如何读取每个excel第二列数据的前11个字符生成一个新变量id)。例如P01数据如下:首先,读取excel文件先要安装package: XLConn
2017-05-26 13:34:39
20340
文献打包-An Introduction Of Densely Connected Convolutional Networks
2018-01-16
DenseNet综述介绍_An Introduction Of Densely Connected Convolutional Networks
2018-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人