
深度学习
文章平均质量分 74
javastart
专注于大数据 AI
展开
-
基于 pytorch 实现模型剪枝
torch.nn.utils.prune.is_pruned(module): 判断模块 是否被剪枝。torch.nn.utils.prune.remove(module, name): 用于将指定模块中指定参数上的剪枝操作移除,从而恢复该参数的原始形状和数值。虽然 PyTorch 提供了内置剪枝API,也支持了一些非结构化和结构化剪枝方法,但是API比较混乱,对应文档描述也不清晰,所以后面我还会结合微软的开源nni工具来实现模型剪枝功能。更多剪枝方法实践,可以参考这个github。原创 2024-10-24 07:12:17 · 1162 阅读 · 0 评论 -
一文详解大模型蒸馏工具TextBrewer
TextBrewer为NLP中的知识蒸馏任务设计,融合了多种知识蒸馏技术,提供方便快捷的知识蒸馏框架。模型无关:适用于多种模型结构(主要面向Transfomer结构)方便灵活:可自由组合多种蒸馏方法;可方便增加自定义损失等模块非侵入式:无需对教师与学生模型本身结构进行修改支持典型的NLP任务:文本分类、阅读理解、序列标注等TextBrewer软标签与硬标签混合训练动态损失权重调整与蒸馏温度调整。原创 2024-08-04 07:40:05 · 1980 阅读 · 0 评论 -
大模型瘦身专家!单卡处理Llama 3.1 405B 超强压缩工具LLMC来了
量化,就像是给AI大脑做了一次“瘦身”,通过将模型的权重和激活映射到更低位数的数据格式,不仅减少了模型的体积,还加快了模型的运行速度。LLMC就像是AI的私人减肥教练,它能够帮助研究者和开发者找到最适合的"减肥方案",既能让AI模型变得更轻盈,又不会影响它的"智力水平"。一个拥有1760亿参数的多语言模型Bloom,光是存储模型的权重就需要至少350GB的空间,而且运行起来还需要好几块高级GPU。在量化算法方面,他们探讨了转换、裁剪和重建三种主要技术的影响,就像是比较了不同的运动方式对减肥的效果。原创 2024-08-02 18:38:16 · 590 阅读 · 0 评论 -
Torch-Pruning (TP) -1.4.1 更新
【代码】Torch-Pruning (TP) -1.4.1 更新。原创 2024-08-02 10:05:13 · 892 阅读 · 0 评论 -
pytorch剪枝
在这篇文章中,我将向你介绍如何在PyTorch中实现模型剪枝。剪枝是一种优化模型的技术,可以帮助减少模型的大小和计算量,同时保持模型的准确性。我将为你提供一个详细的步骤指南,并指导你如何在每个步骤中使用适当的PyTorch代码。接下来,我们需要定义一个剪枝算法,这里我们以Global Magnitude Pruning(全局幅度剪枝)为例。# 定义剪枝比例# 对模型的全连接层进行剪枝1.2.3.4.5.6.7.8.9.10.原创 2024-04-01 11:19:07 · 951 阅读 · 2 评论 -
PyTorch 2.2大更新!集成FlashAttention-2,性能提升2倍
PyTorch 2.2将FlashAttention内核更新到了v2版本,不过需要注意的是,之前的Flash Attention内核具有Windows实现,Windows用户可以强制使用sdp_kernel,仅启用Flash Attention的上下文管理器。FlashAttention-2调整了算法以减少非matmul的计算量,同时提升了Attention计算的并行性(即使是单个头,也可以跨不同的线程块,以增加占用率),在每个线程块中,优化warps之间的工作分配,以减少通过共享内存的通信。原创 2024-02-07 07:52:42 · 2903 阅读 · 0 评论 -
西安交通大学开源SadTalker模型,图片+音频秒变视频!
1、论文链接:https://arxiv.org/pdf/2211.12194.pdf。2、项目主页:https://sadtalker.github.io/原创 2023-06-01 18:30:35 · 978 阅读 · 1 评论 -
强化学习开源框架整理
本篇主要是介绍了不同的 RL 开源工作,包括环境开源工作和算法开源工作,同时关注这些开源工作对于多机多卡并行分布式训练的支持。转载 2023-05-06 16:56:20 · 1882 阅读 · 0 评论 -
2023 Ai绘画 stable diffusion 笔记本配置硬件要求
所以核显机型就不要考虑了,另外Ai绘画运行中相当于之前的挖矿,GPU会100%运行,对于笔记本来说散热规模有限,不建议长时间跑图。推荐考虑GN7,显卡性能相当于RTX3060~RTX3060Ti ,16G显存,出图效率还行,很适合一天24小时跑图使用。新用户比较优惠,12月份我用的时候120/月,一天相当于4元,实际上在自己电脑上跑12小时,电费都不止4元了。编辑于 2023-04-21 09:59・IP 属地广东。选择 windows操作系统 2019。显存:越大,所设置图片的分辨率越高。转载 2023-05-01 21:43:32 · 8829 阅读 · 0 评论 -
Stable Diffusion团队放大招!新绘画模型Deep Floyd直出AI海报,像素级生成
参考链接:[1]https://deepfloyd.ai/deepfloyd-if[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot[4]https://stable-diffusion-art.com/how-stable-diffusion-work/转载 2023-04-30 22:00:42 · 730 阅读 · 0 评论 -
Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!
项目成员包括:徐源佑(在读博士),程阳铭(在读硕士),李刘磊(科研助理), 杨宗鑫 (博士后), 王文冠 (百人计划研究员), 杨易 (教授)。SAM-Track在单卡上即可支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等,可同时追踪超过200个物体,为用户提供了强大的视频编辑能力。SAM-Track在单卡上即可支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等,可同时追踪超过200个物体,为用户提供了强大的视频编辑能力。2. 通过点击添加多个物体进行分割/跟踪。转载 2023-04-27 22:17:42 · 687 阅读 · 1 评论 -
Studio D-id 视频生成工具
Studio D-id_映技派,专注新媒体运营!原创 2023-04-09 21:40:35 · 425 阅读 · 0 评论 -
CV不存在了?Meta发布“分割一切”AI 模型SAM,CV或迎来GPT-3时刻
Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。转载 2023-04-09 16:55:21 · 177 阅读 · 0 评论 -
PyTorch 大杀器:用 AdaptDL 优化 GPU 集群中的 EDL
内容导读 AdaptDL 是一个资源自适应深度学习训练和调度框架,是 CASL 开源项目的一部分。AdaptDL 的目标是使分布式 DL 在动态资源环境中变得简单和高效。EDL 全称 Elastic Deep Learning,由 LF AI 基金会孵化,是一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。训练深度学习模型通常比较耗时,在算力资源、储存空间等方面的花费也比较高昂。转载 2023-04-04 16:20:27 · 211 阅读 · 0 评论 -
集多个AI绘画开源模型于一体的工作台#invokeAI使用测评
但在图片储存上midjourney使用频道的方式,在进行图片分类、储存方面更加完善,可以将不同的图片分配到不同的频道内进行储存,目前invokeAI还没有将图片分类储存的功能。在进行大量的出图时,midjourney采用的是上下滚动的翻阅设计,而invokeAI采用的是将图片集中放在右侧栏中的设计,invokeAI在直接选取之前的图像上更加方便。invokeAI中拥有大部分的基本AI绘画生成功能,例如文生图,图生图、种子值、放大图像等等,下面拿了invokeAI的一些特别的功能进行了测评。转载 2023-03-30 15:07:26 · 3845 阅读 · 0 评论 -
理解DALL·E 2, Stable Diffusion和 Midjourney工作原理
【者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。以下是译文,Enjoy!| 岳扬在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。转载 2023-03-30 14:54:05 · 3600 阅读 · 0 评论 -
【AI绘画】推荐一个好用的新模型—MidjourneyV4(附关键词)
这个模型应该是基于Midjourney练的,效果感觉有点偏3D,画人物和一些大场景都很赞!对描述词的要求感觉不是很高,有些简单的描述词也能出好图。今天给大家推荐一个效果很好的新模型,MidjourneyV4,是一个大佬练出来的,并开源分享的一个模型。),他们家最近新推出的【模型市场】里面有很多人分享的开源模型。如果没有条件本地部署的可以试试我之前推荐的爱作画网站(效果是不是还可以,画场景也很棒,有游戏里面的感觉。原作者:prompthero。喜欢的朋友可以自己去试试哦~转载 2023-03-30 14:45:56 · 1561 阅读 · 0 评论 -
【本周特惠课程】深度学习模型优化(剪枝量化蒸馏)核心技术理论与实战!...
【本周特惠课程】深度学习模型优化(剪枝量化蒸馏)核心技术理论与实战!..._言有三的博客-优快云博客原创 2023-03-30 10:27:38 · 91 阅读 · 0 评论 -
使用Linux训练LoRA模型
2023年春节后,我发现Stable Diffusion webui更新了LoRA模块,突然间LoRA这个名词在AI绘图中火了起来,civita网站也突然间多了很多各式各样的模型,这时候LoRA彻底火出圈了~然后,特么尴尬的来了,Stable Diffusion webui中的Dreambooth extension训练所产生的LoRA小模型,无法在webui中的LoRA模块进行加载,这大大限制了原友们的创作热情。--reg_data_dir是刚才设置的1_girl文件夹的上一级文件夹的路径;转载 2023-03-29 22:52:17 · 3200 阅读 · 1 评论 -
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
除了上述介绍的采用多个 crops 来进行加速外,作者还分析了其他一些加速的因素,如下图所示,ReLabel 在训练模型阶段需要生成采样数据的坐标,同时需要使用 RoI-Align 和 Softmax 来生成所需的软标签,相比而言,FKD 直接保存了坐标信息和最终软标签格式,因此读取标签文件之后不需要做任何额外的后处理就可以直接训练,速度相比 ReLabel 也会更快。需要注意的是这个速度对比实验中,FKD crop 数目为 4,如果选取更大的 crop 数目可以得到更高的加速比。原创 2023-03-12 18:32:25 · 317 阅读 · 0 评论 -
Mind+Python+Mediapipe项目——AI健身之跳绳
第二步,分析数据,得到判定点纵坐标。思路是,坐标数据是上下波动,将数据中的波峰和波谷分别提取出来计算均值,然后取中值,和差值。但这里就存在,Mediapipe识别准确度的问题,可能在上升或下降的过程中数据不平滑,出现数据波动。现在看效果,还不错。2、标准点纵坐标的判定区间(point_sd["y"]+5与 point_sd["y"]+15)是根据运行后的数据人为分析出来的,只对这一段视频有效,不具有通用性。1、在正式跳绳计数前,先试跳,通过数据分析出标准点、判定区间(防止数据在判定点抖动,出现错误计数)。原创 2023-02-22 18:30:44 · 4232 阅读 · 1 评论 -
继北极星项目后,又一款低成本AR眼镜开源方案:OpenAR
2018年的时候,Leap Motion(Ultraleap前身)曾开源了一款低成本、简易的AR头显方案:Project North Star(北极星项目)。该方案主要用来帮助爱好者、开发者们快速上手AR开发,而无需购买HoloLens等昂贵的AR头显。除了北极星AR外,这些年来类似的开源AR头显很少,采用率也不高。我们知道,由于AR光学成本高,目前市面上支持3D显示的AR眼镜通常都比较昂贵,普通人难以接受,而机构批量采购的成本也很高。在低成本AR眼镜(不包含AR观影眼镜)领域,目前还比较缺失。转载 2023-02-14 16:32:17 · 1058 阅读 · 0 评论 -
python-ue4-metahuman-nerf:我创造了一个数字人!!
原文:目录收起1. 准备工作:制作 MetaHuman 角色1.1 创建 MetaHuman 角色1.2 Quixel Bridge 下载 MetaHuman1.3 导出 MetaHuman 到 UE42. UE 渲染 MetaHuman 的多视点图片2.1 如何在 UE 中手动渲染视频?2.2 Python 自动化渲染2.3 全部代码3. 渲染结果。转载 2023-02-13 21:39:06 · 3670 阅读 · 0 评论 -
采用thread方式python+opencv+pyqt5控制摄像头在Qlabel上显示
采用pyqt5设计界面时,网上一般都是采用定时器timer 模式,这个一般要设置一个固定时间执行一次,会导致程序运行不流畅。这次也是第一次用pyqt5不大熟悉,调试了一天才调试正常。原创 2023-02-10 22:03:21 · 494 阅读 · 0 评论 -
Python+Opencv实现摄像头答题卡识别
前言:大家好,我是一名高中物理教师,比较喜欢学习编程,由于平时批改作业比较忙,所以突然冒出个想法,做个摄像头答题卡识别就会减轻我平时批改作业的很多负担,特别是选择题,重复性的劳动,意义不大,如果用机器代替工作那该多好呀,网上一搜,有很多教程,但是都不太满意,所以我趁着躲避新冠在家隔离的这段时间,边学边做,终于做成了,还没开学,等开学了就去试试,通过博客园,把我的心得分享给大家!第五,答题卡设置要求:横平竖直,格子的宽高相同(我设置的是64行,23列),便于分割!第六,识别部分:① 打开摄像头,捕获一帧。转载 2023-02-09 22:12:52 · 1921 阅读 · 2 评论 -
机器人操作系统ROS—深度相机+激光雷达实现vSLAM建图与导航 转载
简单来说就是,发出一道经过处理的光,碰到物体以后会反射回来,捕捉来回的时间,因为已知光速和调制光的波长,所以能快速准确计算出到物体的距离。欢迎留言,我将带大家一起实现~!这里可以注意到,相对于机器人的 TF 坐标位置,雷达数据并不是像我们常见的激光雷达数据是 360 度的,这是由于深度相机的视场角(即 FOV,我们这款相机水平 FOV 为 58.4 度,垂直FOV 为 45.5 度)是有限的,所以转换出的雷达数据角度范围和相机是水平 FOV是一致的,简单理解就是,只能看到相机前方一定角度范围内的东西。转载 2023-02-09 16:47:08 · 2788 阅读 · 0 评论 -
超详细语义视觉SLAM综述
然而,vSLAM 无法在动态复杂的环境中实现良好的定位通过将语义信息与 vSLAM 相结合,语义 vSLAM具有解决上述问题的能力。然后,我们收集并分析了当前最先进的语义vSLAM系统Semantic vSLAM 不仅可以在建图过程中获取环境中的几何结构信息,还可以识别环境中的物体并获取语义信息,以适应复杂的环境,执行更智能的任务。与之前的纯几何vSLAM相比,新阶段的感知SLAM具有更鲁棒的性能和更高水平的环境理解,这归功于将图像语义信息应用于SLAM 进行姿态估计、闭环和建图。转载 2023-02-09 16:42:08 · 1305 阅读 · 0 评论 -
人体姿态识别方案详解
MoveNet是一种超快速且准确的模型,可检测身体的 17 个关键点。受莱昂纳多的维特鲁威人的启发,我们预测了一个人臀部的中点,外接整个人的圆的半径,以及连接肩部和臀部中点的线的倾斜角。OpenMMD具体使用教程在b站上有一个大佬总结的很清楚了,但有一个问题,他只能绑定在mmd模型上,mmd模型在游戏里的通用性并不大,属于比较小范围的应用。目前AR,VR,元宇宙都比较火,需要实际场景和虚拟中进行交互的情况,因此研究了通过摄像头获取图像进行识别,本文主要概述了在人体身体姿势识别跟踪方面的一些调研和尝试。转载 2023-02-04 10:05:44 · 3132 阅读 · 0 评论 -
Python玩人工智能:你的俯卧撑做对了吗?
们已经有了和,今天就来玩俯卧撑啦!转载 2023-02-03 10:03:40 · 500 阅读 · 0 评论 -
俯卧撑计数 opencv-python + mediapipe
该项目有两个文件即可运行:文件一:PoseModule.py文件二:main.pyPoseModule.py。原创 2023-02-03 09:40:43 · 1419 阅读 · 0 评论 -
MediaPipe介绍
https://blog.youkuaiyun.com/weixin_38346042/article/details/123399492原创 2023-01-17 15:20:46 · 259 阅读 · 0 评论 -
InfoGAN详细介绍及特征解耦图像生成
算法思想:将编码器和解码器分开,但是加一个判别器,将他们的输入和输出同时作为判别器的输入,然后区分是来自编码器还是解码器,如果无法分别来自哪个,就说明编码器的输入图片和解码器生成的图片很接近,编码器输出的z和解码器输入的z很接近,目的就达到了。如上图:实际情况中的特征是非常杂乱无章的,然后我们希望的特征关系是比较整齐明了的,具体哪一列表示什么很清晰,从而便于控制它。BiGAN就是双向GAN的意思,这里的判别器与上面介绍的判别器不一样,这里的判别器接收的是图像和编码,判别图像和编码是来自编码器还是解码器。转载 2023-01-16 21:46:59 · 2316 阅读 · 0 评论 -
GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好
GAN包含了两个神经网络,生成器G(Generator)和鉴别器D(Discriminator),生成器的作用是生成图片,鉴别器则接收图片作为输入对象,随后对图像的真假进行辨别,输出1为真,输出0则为假。可以说,EditGAN是第一个GAN驱动的图像编辑框架,它能提供非常高精度的编辑,只需要很少带注释的训练数据(并且不依赖于外部分类器),运行实时交互,允许多个编辑的直接组合,并适用于真实嵌入、GAN生成图像,甚至是域外图像。当然,要实现这种有明确语义的编辑方式,除了依靠数学的力量,也可以借助语言的魔法。原创 2023-01-16 21:43:15 · 751 阅读 · 0 评论 -
【人工智能专题】基于 GAN 的艺术风格化——图像风格迁移
原文:https://mp.weixin.qq.com/s?__biz=MzAxMzEwMDM2Mg==&mid=2652847175&idx=3&sn=51dcb41bc5cac7dfe5e36b75113cf5f2&chksm=804c2862b73ba174fdb42075db1676cedd071e81230478f9262b81499b947f470ded7734afa9&scene=27AI学习分享活动是我协会举办的2022浙江程序员节系列活动之一,分享内容包括程序员的人工智能数字化进阶、趣味A转载 2023-01-11 22:34:59 · 2081 阅读 · 0 评论 -
语义分割丨DeepLab系列总结「v1、v2、v3、v3+」
(1)是由于DCNN中的重复池化和下采样降低了空间分辨率,一种方法是采用转置卷积(deconvolutional layer),但是需要额外的空间和计算量。首先经过采用空洞卷积的DCNN如VGG-16或ResNet101得到粗略的分割结果,然后通过双线性插值将feature map恢复成原图分辨率,最后用全连接的CRF来精细化分割结果。为了解决该问题,DeepLab引入。花了点时间梳理了一下DeepLab系列的工作,主要关注每篇工作的背景和贡献,理清它们之间的联系,而实验和部分细节并没有过多介绍,请见谅。转载 2023-01-11 09:24:26 · 760 阅读 · 0 评论 -
数字人视频课程
数字人音频驱动嘴唇。原创 2023-01-09 22:41:46 · 356 阅读 · 0 评论 -
深度掌握模型剪枝+模型量化+知识蒸馏3大核心模型压缩技术理论
神经网络与深度学习理论,深度学习模型设计与优化,计算机视觉的基础领域,AI美学,2D与3D人脸算法,生成对抗网络GAN等领域。另外:实践部分的内容也已经有部分更新,包括Distiller框架的介绍与使用,模型剪枝的实践,模型量化的实践,模型蒸馏的实践,本周正在继续完善充实实践部分,预计会超过8个小时,请大家拭目以待!模型压缩与优化是专门针对模型进行精简的技术,这是模型能够在各类嵌入式平台使用的关键技术,包括紧凑模型设计,模型剪枝,模型量化,模型蒸馏,自动化模型设计等内容。转载 2023-01-08 22:34:26 · 434 阅读 · 0 评论 -
姿态估计开源项目汇总
为了在帧中匹配与同一个人相对应的姿势,还提供了一种称为Pose Flow的高效在线姿势跟踪器。它是第一个在PoseTrack Challenge数据集上达到60+ mAP(66.5 mAP)和50+ MOTA(58.3 MOTA)的开源在线姿势跟踪器。目的是为最流行的人体姿势数据库(例如,MPII人体姿势,LSP和FLIC)提供训练/推断/评估的接口,并为数据加载器提供各种数据增强选项。通过对所有动物的深度学习,对用户定义的特征进行无标记的姿势估计。Android和iOS平台的实时单人姿势估计。原创 2023-01-03 16:57:56 · 664 阅读 · 0 评论 -
yolo 视频课程收集
唐博士yolo v3视频学习、2、YOLOv5视频学习(白勇)原创 2023-01-03 12:56:13 · 188 阅读 · 0 评论 -
Yolov5算法解读
Yolov5算法解读_elkluh的博客-优快云博客_yolov5模型解读转载 2023-01-02 22:46:56 · 219 阅读 · 0 评论