自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(278)
  • 收藏
  • 关注

原创 DeepSeek-R1-7b全量微调(SFT)技术教程

一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数量16~20倍的GPU显存,也就是说至少需要两张80G的A100显卡才能训的动。为了方便读者上手,笔者通过。

2025-03-16 19:37:01 1178

原创 使用ChatGPT Deep research做技术调研,10分钟出一篇论文综述!

这两天OpenAI下调了Deep research功能的使用门槛,原先200美刀一个月的Pro用户才能用的,现在20刀的Plus用户也能用了。因为我日常经常要针对特定研究方向做文献调研,经常要花1-2周时间精泛文献,是一个非常耗时耗力的活。所以Deep research我第一时间尝了个鲜,简单和大家聊一下这个东西。选择o1模型,然后在输入框下面把Deep research勾选上,就可以体验深度研究...

2025-02-28 16:59:06 441

原创 我用DeepSeek将《桃花源记》拍成了微电影!

不好意思,有点标题党了,大家都知道DeepSeek是个纯LLM,没有多模态的功能,没法生成视频,出图的功能都没有。完整的技术方案应该是DeepSeek+Midjourney+即梦+剪映。其中DeepSeek用于生成分镜脚本和提示词,Midjourney用于生成分镜首图,即梦用来直接生成分镜视频,而剪映用于最终的剪辑和成片。本文主要展示如何组合使用上述工具,将陶渊明的《桃花源记》生成为1-2分钟的微...

2025-02-24 15:26:28 508

原创 DeepSeek接入本地知识库!

无论大模型能力有多强,在回答人类提问时或多或少都会存在胡说八道的情况,也就是我们所说的幻觉(Hallucination)。这段时间爆火的DeepSeek当然也会存在这类问题。特别是垂直领域的大模型应用,对于模型回答的准确率要求非常高,因为存在幻觉问题,单纯依靠大模型难以满足使用需求,所以我们一般会通过检索增强生成(Retrieval-Augmented Generation, RAG)技术来缓解大...

2025-02-19 10:02:54 583

原创 DeepSeek-R1本地化部署的两种方案!

DeepSeek爆火之后,短时间官网和app都涌入大量用户,再加上对面美帝不讲武德搞攻击,导致官网和api调用非常不稳定,极度影响用户体验:综合这几天来看,要想继续无痛使用DeepSeek,有如下几种方案:继续使用官网,等DeepSeek官方修复和提升用户体验使用第三方平台上的DeepSeek,比如硅基流动、秘塔、纳米搜索等本地化部署这篇文章主要介绍两种本地化部署方案。需要提前说明的是,本地化部署...

2025-02-08 13:58:54 1144

原创 制作个人的第一个RAG demo!

检索增强生成(Retrieval-Augmented Generation, RAG) 是一种结合了信息检索和大模型(LLM)的技术,用于构建更强大和准确的问答或生成系统。RAG通过将大模型与外部知识库相结合,可以动态检索相关信息并利用生成模型对查询进行更准确的回答。RAG在对抗大模型幻觉、高效管理用户本地文件以及数据安全保护等方面具有独到的优势,因而目前基于大模型应用专门做RAG赛道的企业不在少...

2024-12-18 16:55:30 769

原创 《深度学习图像分割》第4章:基于编解码结构的分割网络

《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第4章节选内容:编解码网络结构是深度学习图像分割中的经典设计和主流架构,广泛应用于各类场景的分割任务中。本章将以全卷积网络和U-Net结构为基础,深入剖析各种编解码网络结构的变体,包括SegNet、RefineNet、Attention U-Net、Residual...

2024-11-27 17:11:51 672

原创 《深度学习图像分割》第3章:图像分割关键技术组件

《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第3章节选内容:近年来,基于深度学习的图像分割技术发展迅猛,涌现出大量创新的模型和算法。然而,构成这些方法的核心技术组件并未发生根本性变化。为了能够系统性的理解深度学习图像分割模型的设计,本章将首先回顾图像分割中的关键技术组件,为后续章节中深度学习分割网络的具体介绍...

2024-11-11 16:28:20 483

原创 《深度学习图像分割》第2章:传统图像分割算法

《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第2章节选内容:图像分割是数字图像处理和计算机视觉领域中的一个经典问题,旨在将图像划分为若干具有特定意义的子区域或目标对象。图像分割是一种典型的图像处理方法,其输入和输出都是图像。传统的图像分割方法通常基于图像的两个基本属性:灰度值的不连续性和灰度值的相似性,并围绕...

2024-11-05 16:16:46 980

原创 预告 | 《深度学习图像分割》将在GitHub逐步内容开源!

《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第1章节选内容:相较于目标检测只关注图像中的局部区域,基于深度学习的图像分割则更为精细,它将每一个像素点作为研究对象,并对每个像素赋予一个语义标签。因此,图像分割的一个基本类型称为语义分割(semantic segmentation)。除了语义分割,实例分割(ins...

2024-10-15 21:58:33 579

原创 浅谈医工交叉方向SCI写作

笔者因为工作性质原因,这几年写了不少医学人工智能方向的SCI论文,顺带每年相关的论文的阅读量也有小几百篇,特别是在医学影像AI方向,也算是小有心得,今天就简单聊一下医工交叉(影像AI)方向的SCI论文写作与投稿问题。首先声明一点,医工方向非常吃人脉和数据资源,如果没有医院数据和标注资源的话,想发高分期刊非常难。不是说不可能,也有天赋型选手单靠几个常用的公开数据集设计出新的网络结构发到MIA和TMI...

2024-06-20 15:43:36 739

原创 用天工AI搜索起底《庆余年2》,终于搞清楚了范闲有几个爹!

前两天庆余年剧组官方宣布了《庆余年2》定档5月16日,不少粉丝早已按耐不住自己期待的心情,包括笔者自己。虽然但是,笔者好像已经忘了第一部里面都讲了哪些内容了?不知道有没有跟笔者一样的朋友。毕竟,距离第一部开播,已经都快五年了。刚好最近AI搜索很火,笔者就用了国内第一款AI搜索——天工AI搜索来帮助温习了下庆余年的内容。其实AI搜索这个东西,它也不是最近才火的,早在ChatGPT刚问世不久,业界就有...

2024-05-12 11:00:45 1201 1

原创 扩散模型:DDPM的两种数学推导

在上一篇文章最后结尾时,笔者提到扩散模型(Diffusion Models)实际上就是一种在限定条件下的马尔可夫层次变分自编码器(Markovian Hierarchical Variational Autoencoder, MHVAE),是融入了马尔可夫过程的VAE模型。其本质上和VAE的流程有相似之处,都是经过原始图像->高斯噪声图->生成图像的三个步骤。本文将接续上一篇关于ELB...

2024-04-14 10:58:29 1901

原创 概率的艺术:变分下界(ELBO)与VAE

按照年初的规划,LLM和AIGC是笔者今年重点学习的两大方向,目前已经分两条线在逐步展开中。笔者最近对Stable Diffusion在本地进行了部署,深度尝试使用了三周时间,对SD常规用法、LoRA、Textual Inversion、Dreambooth和ControlNet均小有尝试,以下均为笔者使用SD绘制的效果图片(相关模型均来自Civitai)。SD等绘图工作背后的核心技术就是目前非常...

2024-04-08 16:17:03 4633 1

原创 深度学习图像分割,我准备了103篇SOTA论文合集

大家好!我是louwill。深度学习近年来在众多领域已取得了令人瞩目的成就,计算机视觉正是其中的典型代表。图像分割是图像处理和计算机视觉的一个重要应用方向,在深度学习的影响下,图像分割经历了由传统图像处理技术向深度学习主导的重要转变。特别是去年SAM等一众图像分割大模型涌现,深度学习图像分割发展已近白热化。过去一年里,《深度学习图像分割》这本书已完成初稿,近日在整理相关文献以备下一轮修改。这本书累...

2024-02-22 15:16:46 899 4

原创 gpt-4-turbo、gpt-4v、dall-e-3 api实测!

上周GPT大更新,不仅开放了GPT-4-Turbo、GPT-4-Vision等模型api,还发布了GPTs,使得用户能够根据需要定义自己的GPT应用,OpenAI在这波AI革命上又一次震撼世人。笔者也在上周拿到了几个新模型的api资格,一直盼着可以测试年初就官宣的多模态功能,所以迫不及待的就测了一波。DALL.E 3绘图功能测试from openai import OpenAIclient ...

2023-11-13 17:07:03 3231

原创 很久不互动了,谈一下近况

我是louwill,各位晚上好!今年因为有了娃,90%的空闲时间都在带娃,加上下半年的两个职称考试,所以公众号很少有时间写原创,也很少跟各位读者朋友们有互动了。晚上刚给娃哄睡下,打开公众号原创编辑页面,简单跟大家聊几句。今年4月底,有了一个心心念念的可爱女儿,自此一直在朝着奶爸的方向努力。工作上中规中矩,可能处于一种特殊的瓶颈期吧。时间一晃到了11月,稍微有一点时间可以输出一些内容。今年一项重要的...

2023-11-12 22:49:24 341 1

原创 第12章 PyTorch图像分割代码框架-3:推理与部署

推理模块 模型训练完成后,需要单独再写一个推理模块来供用户测试或者使用,该模块可以命名为test.py或者inference.py,导入训练好的模型文件和待测试的图像,输出该图像的分割结果。inference.py主体部分如代码11-7所示。代码11-7 推理模块部分# 导入相关库import numpy as npimport torchfrom PIL import Image# 定义...

2023-11-09 17:15:32 808

原创 第12章 PyTorch图像分割代码框架-2

模型模块本书的第5-9章重点介绍了各种2D和3D的语义分割和实例分割网络模型,所以在模型模块中,我们需要做的事情就是将要实验的分割网络写在该目录下。有时候我们可能想尝试不同的分割网络结构,所以在该目录下可以存在多个想要实验的网络模型定义文件。对于PASCAL VOC这样的自然数据集,我们可能想实验Deeplab v3+、PSPNet、RefineNet等网络的训练效果。代码11-3给出了Deepl...

2023-11-06 18:55:08 397

原创 第12章 PyTorch图像分割代码框架-1

从本章开始,本书将会进行深度学习图像分割的实战阶段。PyTorch作为目前最为流行的一款深度学习计算框架,在计算机视觉和图像分割任务中已经广泛使用。本章将介绍基于PyTorch的深度学习图像分割代码框架,在总体框架的基础上,基于PASCAL VOC 2012数据集,分别介绍预处理模块、数据导入模块、模型模块、工具函数模块、配置模块、主函数模块、推理模块和部署模块等。每个模块都会在基本的代码结构基础...

2023-10-24 16:27:00 553

原创 在微信上部署GPT-4.0!

自从OpenAI开放api以后,使得基于GPT的各类二次开发的应用逐渐多了起来。笔者也在前几天也刚刚收到了GPT-4的api使用资格。由于众所周知的原因,在OpenAI官网使用GPT多少有点不那么顺畅。笔者曾经尝试过一些本地化部署个人GPT的项目,比如基于ChatGPT Next部署的个人GPT,有api的读者可以在下面地址进行体验,速度比官网还要快:https://www.louwillgpt....

2023-05-07 20:50:23 4205 1

原创 UniverSeg:通用医学图像分割模型来了!

自从今年以来ChatGPT爆火和GPT-4的发布,一时间在大模型的潮流下,通用人工智能(AGI)也呼之欲出。随着本月初SAM和SegGPT等通用的CV大模型的提出,大模型和通用模型这把火也逐渐烧到的CV领域,特别是图像分割领域。很多做分割方向的小伙伴自我调侃说一觉醒来,自己的方向没了。笔者所在的医学影像行业,一直以数据和高成本标注而筑起非常高的领域壁垒。几个月前要是有人跟我说想做一个医学影像的通用...

2023-04-15 17:09:38 6249 1

原创 ChatGPT Plus已重新开放升级!

前天(4月5号)OpenAI声称因为算力不足暂时关闭了升级Plus账号的通道,恢复时间未知。很多用户感慨GPT-4还没体验到就没了。没想到时隔一天,OpenAI就重新开放了升级通道,不知道是真的算力不足还是营销策略。不过考虑到不知道OpenAI会不会未来经常算力不足,有GPT-4使用需求的朋友可以考虑尽快升级为Plus用户。随着大模型和AGI的风靡,最近一段时间,笔者所创建的社群都在讨论GPT和A...

2023-04-07 16:16:07 10999 3

原创 文心一言与GPT-4比对测试!

Waitlist了三个星期,今天下午终于拿到了百度文心一言的体验资格,于是立刻展开测试。根据文心一言网页端信息显示,目前最新发版是4月1号的版本,版本号是v1.0.3,应该是从上个月16号发布会以后又做了两版迭代。根据文心一言自己的回答,可以看到文心一言是基于百度飞桨和文心大模型发布的大语言模型。话不多说,笔者下午对文心一言做了50来次测试,就其中的10来个问题与GPT-4的回答做了对比测试。这里...

2023-04-05 19:13:46 2187

原创 GPT-4+New Bing+Copilot!我的AI生产力工具组合

作为AIGC和AGI爆火的第一年,以ChatGPT为代表的通用AI助手开始成为每一位职场人的必备工具。不管你承不承认,由OpenAI和ChatGPT引领的这一波通用人工智能浪潮正在掀起一场新的科技革命。浪潮之下,我们每个人能做的就是积极拥抱变化,不断学习和尝试新的工具,将其转化为日常工作和学习中的效率神器。君子善假于物,对待新事物,特别是对我们有帮助的新事物,要毫不犹豫勇于接纳。作为一名6年经验的...

2023-03-31 16:16:47 1256

原创 GPT-4初体验!

作为去年12月初ChatGPT的第一批用户,这几个月一直在见证OpenAI和ChatGPT在NLP大模型和通用人工智能(AGI)上的狂飙。月中GPT-4发布的时候,觉得暂未开放多模态输入功能的话,先暂不升级账号。但随着ChatGPT全面接入笔者日常工作中,又深感有必要升级为Plus账户。前两天折腾了下,终于成功体验上了GPT-4(账号升级过程略微复杂,这里不多说,感兴趣的读者可以私信我了解具体操作...

2023-03-26 19:44:14 1545

原创 深度学习论文精读[14]:Vision Transformer

从这篇文章开始,我们把深度学习语义分割的目光转向Transformer,即基于ViT的语义分割模型。在正式介绍Transformer分割网络之前,需要先了解一下ViT的分类网络。Vision Transformer (ViT) 可以算是整个Visuier任务的backbone网络。提出ViT模型的这篇文章题名为An Image is Worth 16x16 Words: Transformers ...

2022-09-25 19:43:03 1009

原创 深度学习论文精读[13]:Deeplab v3+

Deeplab v3+是Deeplab系列最后一个网络结构,也是基于空洞卷积和多尺度系列模型的集大成者。相较于Deeplab v3,v3+版本参考了UNet系列网络,对基于空洞卷积的Deeplab网络引入了编解码结构,一定程度上来讲,Deeplab v3+是编解码和多尺度这两大系列网络的一个大融合,在很长一段时间内代表了自然图像语义分割的SOTA水平的分割模型。提出Deeplab v3+的论文为E...

2022-08-19 16:16:56 6400 1

原创 深度学习论文精读[12]:Deeplab v3

Deeplabv3是v2版本的进一步升级,作者们在对空洞卷积重新思考的基础上,进一步对Deeplab系列的基本框架进行了优化,去掉了v1和v2版本中一直坚持的CRF后处理模块,升级了主干网络和ASPP模块,使得网络能够更好地处理语义分割中的多尺度问题。提出Deeplab v3的论文为Rethinking Atrous Convolution for Semantic Image Segmenta...

2022-08-16 16:16:09 802

原创 深度学习论文精读[11]:Deeplab v2

Deeplabv2 严格上算是Deeplab v1版本的一次不大的更新,在v1的空洞卷积和CRF基础上,重点关注了网络对于多尺度问题的适用性。多尺度问题一直是目标检测和语义分割任务的重要挑战之一,以往实现多尺度的惯常做法是对同一张图片进行不同尺寸的缩放后获取对应的卷积特征图,然后将不同尺寸的特征图分别上采样后再融合来获取多尺度信息,但这种做法最大的缺点就是计算开销太大。...

2022-08-10 16:16:50 1028

原创 深度学习论文精读[10]:Deeplab v1

在语义分割发展早期,一些研究观点认为将CNN用于图像分割主要存在两个问题:一个是下采样导致的信息丢失问题,另一个则是CNN的空间不变性问题,这与CNN本身的特性有关,这种空间不变性有利于图像分类但却不利于图像分割中的像素定位。从多尺度和上下文信息的角度来看,这两个问题是导致FCN分割效果有限的重要原因。因而,相关研究针对上述两个问题提出了Deeplab v1网络,通过在常...

2022-08-06 19:43:29 2042

原创 深度学习论文精读[9]:PSPNet

场景解析(scene parsing)是语义分割的一个重要应用方向,区别于一般的语义分割任务,场景解析需要在复杂的自然图像场景下对更庞大的物体类别的每一个像素进行分类,场景解析在自动驾驶和机器人感知等方向应用广泛。但由于自然场景的复杂性、语义标签的多样性以及目标物体的多变性,对于场景解析问题的研究一直存在诸多困难。场景解析一般基于FCN和空洞卷积网络来进行结构设计,后续的...

2022-07-31 19:43:41 4061

原创 深度学习论文精读[8]:ParseNet

U形的编解码结构奠定了深度学习语义分割的基础,随着基线模型的表现越来越好,深度学习语义分割关注的焦点开始由原先的编解码架构下上采样如何更好的恢复图像像素转变为如何更加有效的利用图像上下文信息和提取多尺度特征。因而催生出语义分割的第二个主流的结构设计:多尺度结构。接下来的几篇论文解读将对重在关注图像上下文信息和多尺度特征的结构设计网络进行梳理,包括ParseNet、PSPN...

2022-07-28 11:31:49 2032

原创 深度学习论文精读[7]:nnUNet

相较于常规的自然图像,以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式,包括计算机断层扫描(Computed Tomography, CT)、核磁共振成像(Magnetic Resonance Imaging, MRI)、超声成像(Ultrasound Imaging)、X光成像(X-ray Imaging)和光学相干断层扫描(Optica...

2022-07-25 16:16:05 12080 2

原创 深度学习论文精读[6]:UNet++

UNet的编解码结构一经提出以来,大有统一深度学习图像分割之势,后续基于UNet的改进方案也经久不衰,一些研究者也在从网络结构本身来思考UNet的有效性。比如说编解码网络应该取几层,跳跃连接是否能够有更多的变化以及什么样的结构训练起来更加有效等问题。UNet本身是针对医学图像分割任务而提出来的网络结构,该任务不像自然图像分割,对分割精度要求并不是十分严格。但对于医学图像而...

2022-07-21 11:13:17 7114 4

原创 深度学习论文精读[5]:Attention UNet

以CNN为基础的编解码结构在图像分割上展现出了卓越的效果,尤其是医学图像的自动分割上。但一些研究认为以往的FCN和UNet等分割网络存在计算资源和模型参数的过度和重复使用,例如相似的低层次特征被级联内的所有网络重复提取。针对这类普遍性的问题,相关研究提出了给UNet添加注意力门控(Attention Gates, AGs)的方法,形成一个新的图像分割网络结构:Attent...

2022-07-18 16:16:38 6305 1

原创 深度学习论文精读[4]:RefineNet

对于高分辨率的图像分割问题,基于编解码结构的分割网络虽然有效,但因为卷积和池化下采样的存在,特征图在变小的过程会逐渐损失一些细粒度的信息,非常不利于高分辨率图像的像素稠密预测。针对这个问题,此前的各项研究归纳而言提出了如下三点处理方法:(1)类似于FCN和UNet,直接使用转置卷积上采样来恢复图像像素,但转置卷积对于下采样过程中丢失的低层信息的恢复能力有限。(2)使用空洞...

2022-07-15 20:34:14 1145

原创 深度学习论文精读[3]:SegNet

在场景理解(Scene understanding)和自动驾驶(Autonomous driving)等应用领域,仅关注分割精度并不能满足应用需要,更应该关注模型推理速度和内存占用等性能。在编解码分割框架上,不同的方法在编码器上一般都是大同小异,但在上采样解码器上各有不同。来自剑桥的研究团队认为,在内存不受限和实时性要求不高的情况下,UNet将编码器中的特征图全部连接到解...

2022-07-13 18:34:44 1297

原创 深度学习论文精读[2]:UNet网络

FCN虽然做出了开创性的工作,FCN-8s相较于此前的SOTA分割表现,已经取得了巨大的优势。但从分割效果上看还很粗糙,对图像的细节处理还很不成熟,也没有考虑到像素与像素之间的上下文(context)关系,所以FCN更像是一项抛砖引玉式的工作,随着U形的编解码结构成为通用的语义分割网络设计范式,各种网络如雨后春笋般涌现。UNet是U形网络结构最经典和最主要的代表网络,因其...

2022-07-11 19:18:56 4021

原创 深度学习论文精读[1]:FCN全卷积网络

笔者最近在集中时间撰写深度学习图像分割一书,需要对语义分割众多经典论文进行回顾和精读。目前在写第五章:基于U形结构的网络结构设计,从语义分割的开山之作FCN开始,重启精读之路。随着CNN在图像识别中取得巨大成功,一些经典的图像分类网络(AlexNet、VGG、GoogLeNet、ResNet)也逐渐被应用于更加细分的视觉任务中。很多研究者也在探索如何将分类网络进行改造后用...

2022-07-04 16:17:00 1242 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除