
机器学习
文章平均质量分 72
寸先生的牛马庄园
专注AI,热爱文学
展开
-
视觉-语言预训练模型综述
Li F, Zhang H, Zhang Y F, et al. Vision-Language Intelligence: Tasks, Representation Learning, and Large Models[J]. arXiv preprint arXiv:2203.01922, 2022.按照时间顺序将VLP模型分为三个阶段:特定任务的方法,视觉语言预训练(VLP)方法,以及由大规模弱标记数据加持的更大的模型三大类。第一阶段:特定任务方法三类主流任务:Image Captioni原创 2022-03-14 18:02:35 · 8462 阅读 · 0 评论 -
医学报告生成论文阅读笔记
1.Transformers in Medical Imaging: A Survey综述了Transformers在医学图像分割、检测、分类、重建、合成、配准、临床报告生成和其他任务中的应用。Shamshad F, Khan S, Zamir S W, et al. Transformers in Medical Imaging: A Survey[J]. arXiv preprint arXiv:2201.09873, 2022. [源码]2.Methods for automatic gener原创 2022-02-17 23:30:38 · 9119 阅读 · 0 评论 -
【论文翻译】COMPUTER VISION FOR COVID-19 CONTROL: A SURVEY
论文地址摘要COVID-19大流行病在全球的蔓延已经引发了一种迫切的需要,即为抗击对人类人口的巨大威胁作出贡献。计算机视觉作为人工智能的一个分支领域,近年来在解决医疗保健中的各种复杂问题方面取得了成功,并有可能在控制COVID-19方面做出贡献。为了响应这一号召,计算机视觉研究人员正在试用他们的知识库,以设计有效的方法来应对COVID-19的挑战,并为全球社会服务。每天都在分享新的贡献。它...原创 2020-04-25 10:09:09 · 2172 阅读 · 0 评论 -
Windows下深度学习环境CUDA10.1和CUDA10.0共存
前两天无意看到一篇论文《EISEN: A PYTHON PACKAGE FOR SOLID DEEP LEARNING》,介绍了一个基于Pytorch的医学图像处理库,正好和所研究的内容有关,既然有人已经造好了轮子,那不是很好吗,于是找到官方GitHub]和官网开始安装,将遇到的坑记录一下: 我当前的系统状况如下:硬件Windows10+2080Ti,cuda10.0...原创 2020-04-13 18:02:27 · 6240 阅读 · 6 评论 -
PaddlePaddle CV疫情训练营学习感受
疫情期间,百度AI开放了7天的PaddlePaddle疫情CV训练营,经过这几点的学习打开,感受如下:1.理论基础很重要,决定了你是否走得远,能走多快,是否比别人更具有创新的灵感。在2018年以前,由于兴趣主要在自学机器学习相关的理论,2018年开始接触深度学习。由于是自学,一开始急于动手实践,在没有多少理论做铺垫的情况下,学习了Tensorflow,调过Pytorch,玩过Keras,最终由...原创 2020-04-07 19:28:24 · 379 阅读 · 0 评论 -
从RNN到XLnet
疫情期间,重新阅读了语言模型相关的论文,从RNN时代到XLNet,结合看得网络博文和视频,简单总结为如下一张图:模型分为AE(AutoEncoder)类,如Transformer,BERT等,AR类(AutoRegression)类,如基于RNN、LSTM或其变种(ELMO)等,这种分类方式是XLNET中的分类方法,可以参考该论文。下面引用Recurrent.ai联合创始人杨植麟大神讲座中...原创 2020-02-15 18:02:56 · 499 阅读 · 0 评论 -
梯度下降算法小结
本文对梯度下降算法及其优化进行小结,本文读者假定读者对机器学习基本理论及梯度下降有一定的了解。## 一.涉及的算法 1. 原始梯度下降 2. Batch gradient descent 3. Stocastic gradint descent 4. mini-batch gradient descent 5. Momentum 6. Nesterov 7. Adagr原创 2017-10-10 17:40:21 · 382 阅读 · 0 评论 -
【论文阅读笔记】Makeup-Go: Blind Reversion of Portrait Edit
这是一篇很有新意的文章,实现一键卸妆,是一个让男性爱女性恨的文章,本文由香港中文大学和腾讯优图实验室专家撰写,发布在ICCV2017上。 文章提出Component Regression Network (CRN),在不知道美颜具体操作的情况下将美颜后的照片进行还原。以往对图片还原的研究假设图片处理操作是已知的线性的,本文面对的是非线性的美颜操作,而且操作未知。原创 2017-12-08 11:15:21 · 2199 阅读 · 0 评论 -
【论文阅读笔记】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
本文是MSRA何恺明研究员于14年撰写的论文,主要是把经典的Spatial Pyramid Pooling结构引入CNN中,从而使CNN可以处理任意size和scale的图片;这中方法不仅提升了分类的准确率,而且还非常适合Detection,比经典的RNN快速准确。转载自http://blog.youkuaiyun.com/xzzppp/article/details/51377731转载 2017-12-19 17:16:03 · 250 阅读 · 0 评论 -
【论文阅读笔记】A Multi-Task Learning Formulation for Predicting Disease Progression
本文提出一种预测Alzheimer’sDisease (AD)老年痴呆症的cognitive scores和病症趋势的多任务学习算法。通过多种正则化方法解决不同时间点预测任务之间的依赖及特征选择问题。原创 2017-12-12 11:37:45 · 503 阅读 · 0 评论 -
【论文阅读笔记】Deepr: A Convolutional Net for Medical Records
本文提出一种端到端的深度学习系统,使用CNN自动从医疗数据中提取特征并预测未来的医疗风险。原创 2017-12-05 11:19:22 · 679 阅读 · 0 评论 -
【论文阅读笔记】RETAIN: An Interpretable Predictive Model for Healthcare using Reverse Time Attention Mechan
本文提出REverse TimeAttention model (RETAIN)用于分析Electronic HealthRecords (EHR) 数据,预测病人未来出现心力衰竭的风险。通过使用一个两层的神经注意力模型,并对EHR数据进行逆序输入系统,在保证了预测结果准确性(Accuracy)的同时确保了结果的可解释性(interpretability)。原创 2017-12-15 10:19:41 · 2702 阅读 · 3 评论 -
【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION
本文由香奈儿大学的几位教授撰写,获得ICLR2018最佳论文。文章基于CNN,提出一种图像分类方法:在现实中对图像分类难度不一,采用一个固定的框架对图片进行分类时有时不够灵活,比如使用复杂网络对简单图片分类比较浪费资源,而使用简单网络对复杂图片进行分类效果又不够好,为了解决网络灵活度和节省计算资源,文章提出了MSDNet。原创 2017-12-07 15:49:26 · 2150 阅读 · 0 评论 -
【论文阅读笔记】Segmentation as Selective Search for Object Recognition
本文主要介绍了结合图片分割和选择性搜索(Selective Search)的方法确定物体位置的方法。先前的做法主要使用穷举搜索(Exhaustive Search),即选择一个window扫描整张图像,然后再改变Window大小继续扫描,这种方法比较耗时,因此不能用于更复杂的特征提取和图片数量较多的场合。文中提出的算法通过图像分割(Image Segmentation)以及使用一种层次算法(Hierarchical Algorithm)巧妙地解决这个问题。原创 2017-12-25 15:34:40 · 962 阅读 · 0 评论 -
【论文阅读笔记】Deep Learning based Recommender System: A Survey and New Perspectives
本文只是提取了《DeepLearning based Recommender System: A Survey and New Perspectives》这篇文章中的一些主要内容进行翻译,对于文中的详细算法感兴趣的读者请参考原文中的相关参考文献。本文发表在ACM2017上。本文对主要内容进行翻译和概述。原创 2017-12-04 17:44:15 · 6099 阅读 · 0 评论 -
卷积神经网络直观理解
卷积神经网络 卷积神经网络转载 2017-12-19 10:46:34 · 916 阅读 · 0 评论 -
【论文阅读笔记】Visualizing and Understanding Convolutional Networks
本文是发表在ECCV2014年的论文,主要贡献如下:1、提出一种可视化CNN隐层特征的方法,通过引入一个和CNN计算过程相逆的decovnet来实现。其中convolution ,RELU操作和CNN一直,max-pooling由于运算不可逆,在CNN中引入了switch变量记录max-pooling中每一步的最大值,在un-pooling时在最大值位置用原最大值填充,其他位置用0填充。原创 2018-01-04 17:28:36 · 835 阅读 · 0 评论 -
看懂GRU
本文转载自微信公众号,对GRU和LSTM的关系进行了很好的诠释,为省去符号编辑麻烦,直接截图上传。转载 2018-01-05 10:14:48 · 1664 阅读 · 0 评论 -
Ubuntu16.04下Python36+Anaconda+TensorFlow+Eclipse+Pydev环境搭建
一直以来偷懒使用Windows环境或者Docker,今天在Ubuntu下装了下环境,其实也蛮好用,网上有些教程中的做法实际操作中会出各种问题,因此我将实践后没有问题的步骤记录一下。文中参考的博客中没有问题我就直接给连接,没有再赘述。注意:Tensorflow需要64位的系统支持,所以需要安装64位的操作系统才行。1.安装anaconda,python3.6版本 http://b原创 2017-12-24 17:56:16 · 1280 阅读 · 0 评论 -
【论文阅读笔记】Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net
【作者】周国睿、范颖、崔润鹏、卞维杰、朱小强、盖坤【团队名称】阿里巴巴【收录】AAAI2018论文 【论文链接】https://arxiv.org/abs/1708.04106 深度网络通常采用复杂的网络结构来实现精确预测,但对于点击率预估这样的在线实时响应系统对响应时间要求非常严格。结构复杂,层数很深的深度模型不能很好的满足严苛的响应时间的限制。为了在满足响应时间的前提下还原创 2018-01-06 11:26:30 · 3420 阅读 · 0 评论 -
【论文阅读笔记】CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning
本文是吴恩达哈佛大学团队在2017年发表的文章,提出CheXNet技术,即一个使用ChestX-ray14数据集训练的121层的深度卷积网络,该网络通过胸片识别肺炎的准确率已经和人类放射科医生持平甚至更高。网络输入为人体正面扫描的胸片,输入时患肺炎的概率,为了更好的可视化,使用了热力图(Class activation mapping)。 1.数据 使用Chest原创 2018-01-23 16:56:39 · 5707 阅读 · 2 评论 -
CNN For NLP
CNN for NLP (CS224D) 斯坦福课程CS224d: Deep Learning for Natural Language Processinglecture13:Convolutional neural networks – for sentence classification 主要是学习笔记,卷积神经网络(CNN),因为其特殊的结构,在图像转载 2018-01-07 09:30:10 · 1452 阅读 · 0 评论 -
【论文阅读笔记】Densely Connected Convolutional Networks
本文是CVPR-2017-best paper之一,在ResNet基础上进一步改变CNN网络连接结构,实现State-of-the-art的效果。论文的想法很值得借鉴。大神还无私的给出了代码实现:https://github.com/liuzhuang13/DenseNet.1.Introduction 介绍了CNN的发展,网络层数变多后出现训练梯度消失的问题,之前大名鼎鼎的原创 2018-01-24 11:25:56 · 378 阅读 · 0 评论 -
直观梳理深度学习:计算机视觉基础
本文转载自新智元微信公众号,作者是来自南京大学计算机系机器学习与数据挖掘所(LAMDA)张皓。本文写得很简洁,故转载之,可以当做一篇简要的论文综述。引言深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解,这使得初学者经常卡在一些概念的理解转载 2018-01-24 16:36:20 · 1897 阅读 · 0 评论 -
CNN破解简单验证码(Tensorflow实现)
使用CNN破解一下自己生成的图片验证码,因为电脑性能不行,只破解四位的数字验证码,代码实现中可以对符号、字符和数字混合的验证码进行破解,原理相同,有高性能GPU的童鞋可以试试玩玩。CNN使用简单的三层卷积,人懒结构手绘如下图:生成验证码的代码,使用了第三方库:#coding=utf-8import tensorflow as tfimport numpy as npimpor原创 2018-02-01 17:02:52 · 3812 阅读 · 1 评论 -
Batch Normalization导读
本文转载自http://blog.youkuaiyun.com/malefactor/article/details/51476961,个人觉得是解读《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》这篇大作比较好的文章。/* 版权声明:可以任意转载,转载时请标明文转载 2018-01-26 10:28:13 · 422 阅读 · 0 评论 -
【论文阅读笔记】ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classif
CVPR2017 paper文用自然语言处理和深度卷积神经网络处理临床胸片,从中判别和定位8中胸部疾病:1.Introduction 文章introduction部分就提出现在做深度医学分析的一个主要问题就是数据量小,不能满足大数据分析的要求,因此模型分析结果的泛化能力其实不能保证。因此本文采用了自建的数据库,“ChestX-ray8”,包含了从19原创 2018-02-02 11:27:27 · 6307 阅读 · 2 评论 -
imagenet-vgg-verydeep-19参数结构解析
第一次用网上下载的VGG-19参数来训练网络,下载的参数文件是 imagenet-vgg-verydeep-19.mat 文件有500多兆,不明觉厉害(大神莫笑,如果写得有问题欢迎指出以使我进步,哈哈),一下子不清楚它的参数是怎么组织的,为了弄清楚,参考了网上的帖子,也自己用笨办法一层一层的剥离了一下试试看,把解析后的结构记录一下。一、VGG-19的结构 先原创 2018-01-28 12:14:43 · 9742 阅读 · 7 评论 -
使用VGG19的参数测试图片
本文使用网上下载的VGG19卷积层参数测试一张图片,只使用了VGG19的Conv,Relu,Max-pooling层,没有用到最后三个FC层。参数文件是网上下载的imagenet-vgg-verydeep-19.mat。本文中经过的层包含如下:'conv1_1', 'relu1_1', 'conv1_2', 'relu1_2', 'pool1', 'conv2_1', 'rel原创 2018-01-28 16:51:26 · 6164 阅读 · 0 评论 -
【学习笔记】维基百科中文数据处理(NLP)
本文简单记录一下初学NLP的一个小例子,NLP需要使用语料库进行训练,本文使用维基百科的中文数据进行训练,下载地址在:https://dumps.wikimedia.org/zhwiki/20171020/,我下载的是比较大的,训练效果也更好。 下载下来后的文件是xml.gz格式的,需要先用维基百科提供的process.py转换为文本文件,该代码可以在维基百科上下载,这里把它贴出来:原创 2018-02-05 10:27:55 · 3340 阅读 · 2 评论 -
【论文导读】Scalable and Accurate Deep Learning for Electronic Health Records
本文转载自新智元微信公众平台,作者是康奈尔大学威尔医学院助理教授王飞,对Google最近挂出的深度电子病历论文进行了导读,网上下载了本文阅读,确实如大牛王飞所说,有点点和这么豪华的作者整容不匹配,可能和电子病历深度学习挖掘的难度很大有关。下面是转载的内容。 本周,Jeff Dean大神带领一票人马,在ArXiv上挂出了一篇文章,题目叫“Scalable and Accurate转载 2018-01-29 11:05:59 · 2895 阅读 · 0 评论 -
【论文阅读笔记】Deep Learning in Medical Imaging: Overview and Future Promise of an Exciting New Technique
本文是一篇类似于当前期刊论文介绍的文章,对深度学习应用于医学图像分析方向的研究论文进行了简单的小结,论文发表在IEEE TRANSACTIONS ON MEDICAL IMAGING, VOL. 35, NO. 5, MAY 2016。文章一开始从大的方面介绍了Deep Learning应用在医学图像分析方面的难点:1、缺少大量带标注的数据 2、使用CNN训练医学图像,计算资源要求很高 3、由于原创 2018-02-03 11:14:14 · 3856 阅读 · 0 评论 -
【学习笔记】NLP之影评情感分类
本文对影评数据进行NLP情感分类,数据分为标注数据(含sentiment)和非标注数据(不含sentiment),数据25000条,列出前五条如下: 自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。对模型的讲解,可以参考博客:http://blog.youkuaiyun.com/wangongxi/arti原创 2018-02-06 11:00:20 · 3163 阅读 · 1 评论 -
【学习笔记】用tensorflow实现word2Vec分析红楼梦
今天用tensorflow实现word2vec,用来分析红楼梦,给出相关性分析,统计出词频并绘制词云。TensorFlow很强大,代码很简单,所以不做过多解释,注释已在代码中。# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npimport mathimport collectionsimport pick原创 2018-02-07 18:17:43 · 2046 阅读 · 1 评论 -
【学习笔记】wordCloud的基本使用
最近研究NLP,结果用wordCloud展示效果很好,学习了一下,其实很简单,github上有英文词云的实例可以参考,详见:https://amueller.github.io/word_cloud/ 。下面分Wordcloud类的使用,github上的英文词云例子,自行做的中文词云例子分别记录一下:一、WordCloud类class wordcloud.WordCloud( ...原创 2018-02-08 11:17:58 · 35164 阅读 · 2 评论 -
【论文阅读笔记】Diagnose like a Radiologist: Attention Guided Convolutional Neural Network
本文发表在2018年的arXIV上,通过Attention机制,让计算机关注病理区域,在ChestX-ray14数据集上,达到了state-of-the-art的性能。 本文的想法思路来得很自然,医生在阅读胸片时通常先整体看片子中是否有问题,然后再集中精力看有病理可能的局部区域,最后在结合整张片观察,确定病理结论。本文的算法也按照这种思路,提出一种Attention-guid...原创 2018-03-15 16:20:31 · 1532 阅读 · 0 评论 -
【学习笔记】训练简单生成对抗网络
本实例训练一个简单的GAN,实现让噪声点分布逼近Ground Truth分布的功能,使用的是简单的一维数据点。初始数据分布如图: GAN训练主要分为两步: 1、定义G网络和D网络,及其Loss,Loss在GAN的论文中有讲述,其中x为真实值,Z为生成值,即: 可以将其拆分为判别模型loss: 生成模型Loss: 2.训练G网络和D网络,使得...原创 2018-02-24 16:34:44 · 927 阅读 · 1 评论 -
【论文导读】Identify Susceptible Locations in Medical Records
本文转载自新智元,作者邓侃博士。论文由密歇根州立大学、康奈尔大学腾讯研究院的几位学者,联名发表在ACM2018,这篇文章讲述了如何在病历中找到敏感数据位置,以及如何利用这些关键数据对重症监护中的病人进行保护。 平时大家对自己的医疗数据或许并不怎么关心,面对一大串的字符数字,身为外行基本也看不出个所以然来,更不要说如何用这些数据来救人和自救了。但这些数据对于医生们而言就十分宝...转载 2018-03-06 08:21:12 · 427 阅读 · 0 评论 -
【论文阅读笔记】Chinese Text in the Wild
本文有腾讯AI研究院撰写,没有阐述什么创新的算法,最大的贡献在与构建了一个目前比较大的中文街景数据集,填补了在中文街景字符识别与检测方面的空白。该数据集有32285个图像,包含1018402个中文字符,分为3850个不同的汉字,有大、中、小三个尺寸,每个字符由bouding box和六个属性进行标注(planar text, raised text, text in cities, ...原创 2018-03-13 15:39:28 · 1280 阅读 · 1 评论 -
【论文阅读笔记】Learning to see in the dark
本文是CVPR2018论文,主要提出一种通过FCN方法将在黑暗环境中进行的拍摄还原的方法,实现让机器让机器“看破”黑暗。本文的主要创新点为: 1.提出了一个新的照片数据集,包含原始的short-exposure low-light图像,并附有long-exposure reference图像作为Groud truth,以往类似的研究使用的都是人工合成的图像; 2.与...原创 2018-05-31 11:15:59 · 5022 阅读 · 0 评论