- 博客(32)
- 资源 (2)
- 收藏
- 关注

原创 AIGC从入门到精通
美观性、风格化和可控性是时下流行的 文成图 面临的三座大山,所谓美观性,指的是符合美学规则,不能有脸部畸变、等瑕疵;所谓风格化,指的是有动漫、二次元等多种多样的分割;所谓可控性,指的是可以自由、轻松的控制生成图片中人物的性别、年龄、质态、种族、服装以及场景、光线等的能力. SDXL大幅提升了出图的质量,再也不需要冗长的咒语才能生成差强人意的图片;Lora仅需要数十张目标人物的图就可以高质量的生成特定人物;ControlNet大幅提升了对于姿态、线条等的控制能力
2023-04-21 15:09:52
11591

原创 NeRF 从入门到精通
NeRF是当前最为火热的研究领域之一,效果非常惊艳,它要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图. 不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,它独辟蹊径,将场景建模成一个连续的5D辐射场隐式存储在神经网络中,只需输入稀疏的多角度带pose的图像训练得到一个神经辐射场模型,根据这个模型可以渲染出任意视角下的清晰的照片。因此通俗来讲就是构造一个隐式的渲染流程,其输入是某个视角下发射的光线的位置o,方向d以及对应的坐标(x,y,z),送入神经辐射场Fθ得到体密度和颜色....
2022-03-30 22:23:14
79312
35

原创 人脸识别从原理到实践
人脸识别是目前深度学习领域应用最为广泛的领域之一,各大框架都有不错的开源项目,可以在短时间内达到99.5%以上的精度,咱们话不多说,直接开干.
2018-09-02 00:56:58
8746
3
原创 ID保持的人像生成
个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;的个人写真,在极短的时间拥有了大量的付费客户. 目前面临很多的挑战: 超长的训练微调时间、大的存储需求、需要输入多张图(落地时期望只输入一张)、在保持ID和风格可编辑间进退维谷、此消彼长.不能处理风格图片,只能用于写真。
2023-09-22 16:53:55
2133
原创 insightface pytorch 答疑指南
之前写过一篇人脸识别从原理到实践 详细介绍了人脸识别相关的算法、模型和Loss等,里面也提到insightface成为当前工业事实上的基准。但是它各种牛逼,唯一不足的点就是开始时选了mxnet框架开发,奈何现在基本没什么人用了,所以在22年3月官方悄悄的把主线版本特别是PartialFC的实现换成了pytorch,而且更早之前经历过一次大的文件结构调整,加入了paddle、oneflow等很多框架的实现,但是也导致很多之前教程给的路径都找不到了,还有一些文件直接就删除了,这对于新入手造成了很大的困扰
2022-09-17 10:22:07
2799
1
原创 Baking Neural Radiance Fields for Real-Time View Synthesis
ICCV 2021 OralBaking Neural Radiance Fields for Real-Time View Synthesis代码地址 snerg摘要神经辐射场在3D场景新视角合成方面取得了惊艳的进展,与之而来的是实时渲染上遇到了麻烦因为其在每个视角都要进行成百上千次的网络推理。我们提出了一个方法来训练NeRF,并且预计算和存储(也叫做烘培) 到SNeRG(稀疏神经辐射网格)。为了达到这个目的,我们提出了延迟渲染策略和一个稀疏的网格表达。结果表明其不进可以保留NeRF渲染高保真细节和视角相
2022-06-23 11:05:33
528
原创 yolov5从入门到精通
已经有很多的博文讲解了yolov5的原理以及如何用标注的数据,比如深入浅出Yolo系列之Yolov5核心基础知识完整讲解 标注数据是一项费时费力的工作,如果能用生成的数据来快速验证一些实验,岂不美哉这里以检测圆为例,详细介绍每个步骤首先是训练数据的生成和可视化import osimport cv2import mathimport randomimport numpy as npfrom tqdm import tqdmdef generate(): img = n.
2022-03-14 20:09:34
7054
原创 MobileHumanPose: Toward real-time 3D human pose estimation in mobile devices
当前3D姿态估计的方法受限于精度和速度的要求无法在移动端跑起来,本文提出了一个移动端可用的模型,可以从单张RGB图实时估计3D人体姿态。这个模型包括修改后的MobileNetV2骨干,参数化的激活方式以及类似于UNet的跳层连接.特别是跳层连接在仅增加很少算量的情况下可以大幅提升精度。我们的模型不仅精度可以和最好的方法可比速度更是它的好几倍,此外我们的模型在三星S20CPU上可以跑到12.2ms的速度,这使得其可以用于移动端姿态估计任务.
2022-03-07 15:23:44
3876
原创 虚拟试鞋行业分析及首篇论文解读
虚拟试穿技术使得用户可以试穿多种时尚物品并且提供了了方便的在线购物体验.然而,之前的工作主要集中在衣服上,很少有人做鞋子的,这也在一个很重要的品类,因此我们提出了名为ARShoe的手机端实时虚拟试鞋系统.其改造了多分枝网络来识别姿态和分割,实现了产生真实感体验的遮挡效果。为了达到平滑和稳定的效果,本文还开发了一个稳定策略.为了训练和评估,我们构建了首个大规模脚部评估数据集并且进行了标注,实际测试表明本文方法的有效性.............
2021-09-08 14:32:30
1772
4
原创 虚拟试衣 原理与应用
虚拟试衣是一种能够使用户无需实际脱衣更换衣物,便可实现实时选装、换装和查看试衣效果的技术。它基于用户身体的三维数据,运用计算机图形学原理建立用户自己的三维人体模型,同时大量的服装效果图存储在计算机中,用户可以选择自己喜欢的服装,将选择的服装“穿”到自己的三维人体模型上,最终得到用户三维人体着装的立体效果图。技术构成一般包括三维人体测量、人体建模、服装建模、面料仿真和虚拟试穿等技术。它提供了一种全新的线上线下试衣体验,线上试衣系统借助APP实现,线下虚拟试衣依靠AR镜子实现。服装市场竞争压力越来越大的当下..
2021-06-29 17:44:17
17915
原创 Paddle单阶段口罩检测
Paddle官方有一个口罩检测的示例,但是其是两阶段的,首先要检测出人脸,再将裁剪下来的人脸进行二分类.facemask曾基于YOLO V2实现过单阶段口罩检测,但是速度在移动端不是很快,仅能用于服务端部署,且由于样本缺乏,实测精度也不是很高.FaceMaskDetection 实测速度非常快,在CPU上就能实时,而且开源了网络结构,还能进一步压缩耗时,其提供了caffe、pytorch、tensorflow、onnx和mxnet等近乎全平台的支持,美中不足的是唯独缺了paddle
2020-11-21 11:32:31
2209
原创 mmpose教程
mmpose是商汤开源的一款基于 PyTorch 的姿态分析的开源工具箱,是OpenMMLab项目的成员之一。主分支代码目前支持PyTorch 1.5 以上的版本 ,目前官方已有中文教程
2020-10-29 16:36:07
18003
13
原创 pytorch 从入门到精通
中Tensor和Variable有什么区别?DataSet要实现哪几个函数?怎么获取网络的计算量和模型大小?有哪几种模型加载和保存方式?有哪些提高pytorch 训练速度的trick?预处理加速PyTorch源码解读之。
2020-04-12 13:35:57
2306
原创 树莓派基于深度学习的一些有趣应用
树莓派(Raspberry Pi,下面简称RPi)是一系列由英国树莓派基金会(Raspberry Pi Foundation)开发的仅信用卡大小的微型计算机,其初衷是在学校以及发展中国家推广基础计算机科学
2019-09-08 12:48:51
3886
3
原创 人脸性别和年龄识别
本文是对age-gender-estimation项目的详细讲解,它给出了使用keras进行性别和年龄识别的完整流程。
2018-10-20 13:22:16
15633
16
原创 北京2018积分落户名单
北京2018积分落户名单已经公示出来了,地址在北京人力和社会保障局官网,共有6019人获得,恭喜他们,最低分为90.75分。Update:2019 年的也出来了,详情请见https://blog.youkuaiyun.com/minstyrain/article/details/102642906.网站每页只能显示100页的内容,浏览起来很不方便,这里提供完整的excel表格形式的数据,详见百度网盘(...
2018-10-17 20:06:31
110534
5
原创 mmdetection 港中文媒体实验室开源的检测工具箱和评估基准
mmdetection是商汤开源的用于深度学习目标检测的库, 相比于早先开源的Detectron,maskrcnn-benchmark和SimpleDet具有以下特性:模块化设计,将检测或者分割任务分解成几个模块,通过模块的组合即可完成相应的任务开箱即用,实现了多种目标检测和分割算法,易于配置和使用高效 所有对包围框和掩码的操作都可以在GPU上完成领先性,获得过2018年COCO检测比赛的冠军,并且还在不断进化
2018-10-15 10:12:40
14183
1
原创 labelme 使用教程
labelme是使用python写的基于QT的跨平台图像标注工具,可用来标注分类、检测、分割等常见的视觉任务,支持VOC格式和COCO等的导出,代码简单易读,是非常利用上手的良心工具.
2018-09-06 10:18:53
31903
原创 效率与质量齐飞,标注工具全面横评
人工智能的发展过程中,数据、算力、算法缺一不可。目前,深度学习是AI的主流算法,训练数据在深度学习训练中起到重要作用。很多情况下,“大量数据+普通模型”比“小量数据+高级模型”的准确度要高。
2018-09-04 16:36:00
30662
原创 MTCNN训练
MTCNN是当前效果最好的开源人脸检测算法之一,作者只提供了训练好的模型以及matlab部署代码,其训练和优化在github上有很多,记录成文。如果只是部署而没有时间训练的话,建议使用下面这个https://github.com/imistyrain/MTCNN:MTCNN部署全平台实现,包括C++、python、ncnn和tensorflow,还有加速版本和opencv直接加载版本,是所...
2018-09-02 00:27:47
7293
原创 人脸属性分析--性别、年龄和表情识别
人脸属性指的是根据给定的人脸判断其性别、年龄和表情等,当前在github上开源了一些相关的工作,大部分都是基于tensorflow的,还有一部分是keras,CVPR2015曾有一篇是用caffe做的.优快云从0到1实现基于Tornado和Tensorflow的人脸、年龄、性别识别基于caffe的表情识别tensorflow练习12:利用图片预测年龄与性别怎样用Keras识别...
2018-09-01 23:23:19
31719
11
原创 tensorflow 多GPU编程 完全指南
目前已有很多介绍tensorflow使用多GPU的文章,但大多凌乱不堪,更有相互借鉴之嫌。笔者钻研数日,总算理清里面的脉络,特成此文以飨读者。
2018-07-10 16:51:29
35800
25
原创 VoTT使用教程
VoTT是微软发布的用于图像目标检测的标注工具,它是基于javascript开发的,因此可以跨Windows和Linux平台运行,并且支持从图片和视频读取。此外,其还提供了基于CNTK训练的faster-rcnn模型进行自动标注然后人工矫正的方式,这样大大减轻了标注所需的工作量。其分为V1和V2两个版本,目前V1仅用于BUG修复,不再添加新功能支持,因此建议大家直接用V2.它的特性如下:1...
2018-06-27 17:18:38
29878
17
原创 深度学习 计算模型中每层参数的个数和FLOPs
FLOPS:全大写,是floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。FLOPs:s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。对于普通卷积层来说:FLOPs=2HW(CinK^2+1)Cout
2018-05-17 11:13:56
7574
原创 opencv基于深度学习的人脸检测
opencv3.4 版之前自带的人脸检测器是基于Haar+Adaboost的,速度还可以,但是检出率很低,误检也很多,脸的角度稍大就检不出来,还经常会把一些乱七八糟的东西当做人脸,实在不敢恭维。好在随着深度学习领域的发展,涌现了一大批效果相当不错的人脸检测算法,比如MTCNN,给了我们更多施展的空间。看看下面这图就是基于其检测出来的,看着是不是很震撼呢?源码点此MTCNN效果着实不错,但其...
2017-12-26 22:45:55
13269
7
原创 基于EasyPR的车牌识别android实现
EasyPR4Android,基于EasyPR1.5beta的android实现更新:添加编译好的安装文件采用android studio2.3.3大幅简化ndk开发的配置mrcar特性:1.支持拍照和支持图库浏览识别2.ndk调用OpenCV3.从assets读取并复制文件4.采用多线程进行识别处理5.支持单击进行原图和识别结果之间的切换采用android studio2.3.3开发实现,ndk版本为R12d,OpenCV版本为3.2,android SDK版本
2017-09-11 22:37:41
2755
4
原创 MRLabeler:轻便易用的深度学习数据标注工具
github地址:https://github.com/imistyrain/MRLabeler一、 关于MRLabelerMRLabeler是一款用来标注VOC、YOLO格式图片数据的标注工具,代码全部由C++组成,仅依赖OpenCV,且2.*和3.*系列均支持。Change log:1.4 添加tooltip,更改添加标注框为按shift键以提升标注速度1.3 添加由V...
2017-09-11 22:25:04
3522
2
编译原理课程设计 MFC实现
2012-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人