
付费专栏
文章平均质量分 89
提供有价值,有深度的技术文章。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
程序猿也可以很哲学
深度拖延症+老年痴呆症犯者,
展开
-
DeepSeek系列 ----《DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Lear》论文解析
我们推出了第一代推理模型,DeepSeek-R1-Zero与DeepSeek-R1。DeepSeek-R1-Zero作为先导性研究,通过未采用监督微调(SFT),直接大规模强化学习(RL)直接训练而成,却展现出卓越的推理能力。在强化学习过程中,该模型自然涌现出大量强大而有趣的推理行为,但也面临可读性差、语言混杂等挑战。为解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,该模型在强化学习前引入了多阶段训练与冷启动数据,最终在推理任务上达到与OpenAI-o1-1217相当的水平。原创 2025-05-13 14:55:32 · 160 阅读 · 0 评论 -
DeepSeek系列 ----《DeepSeek-V3 - DeepSeek-V3 Technical Report》论文解析
我们提出了DeepSeek-V3,这是一个强大的混合专家MoE(Mixture-of-Experts)语言模型,具有671B个总参数,以及每个token激活37B参数。为了实现高效的推理和低成本的训练,DeepSeek-V3采用了多头潜在注意力机制MLA(Multi-head Latent Attention)和DeepSeekMoE架构,这两种架构在DeepSeek-V2中得到了充分的验证。此外,原创 2025-05-13 12:15:52 · 37 阅读 · 0 评论 -
DeepSeek系列 ----《DeepSeek-V2 - A Strong, Economical, and Efficient Mixture-of-Exper》论文解析
我们提出了DeepSeek-V2,一个强大的专家混合(MoE)语言模型,其特点是经济实惠的训练成本和高效的推理。它总共包含236B个参数,其中每个token激活21B个参数,每个token支持128K的上下文长度。DeepSeek-V2采用了新颖的多头潜在注意力机制MLA(Multi-head Latent Attention )和DeepSeekMoE等创新架构。MLA通过将键值值(KV)缓存显著压缩为潜在向量来保证高效推理,而DeepSeekMoE通过稀疏计算以实惠的计算训练成本训练强大的模型。原创 2025-04-22 15:18:48 · 68 阅读 · 0 评论 -
DeepSeek系列 ----《DeepSeek LLM - Scaling Open-Source Language Models with Longtermism》论文解析
开源大语言模型(LLMs)的快速发展确实令人瞩目。然而,既有文献提出的缩放定律(指导模型性能与规模关系的核心经验规律,模型性能如何随着参数规模、数据量和计算资源的增加而系统性提升)结论不一,这为LLM的规模扩展蒙上了一层阴影。我们深入研究了缩放定律,并在两种主流开源配置(7B和67B参数规模)中提出了促进大模型扩展的独特发现。基于这些缩放定律的指导,我们推出了DeepSeek LLM项目。一个致力于长期推动开源语言模型发展的计划。为进行预训练,我们构建了当前包含2万亿token且持续扩增的数据集。原创 2025-04-15 20:13:36 · 105 阅读 · 0 评论 -
3D人脸模型Flame ----《Learning a model of facial shape and expression from 4D scans》论文讲解及代码注释
前文在阅读论文前,首先我们要有一定的知识储备,包括人脸建模,表情制作,旋转转换等,才能方便我们的论文理解,所以首先我会讲解一些关键的知识点。Flame模型的作用?Flame是一个3D人脸的通用模型,举个例子,你现在有一个特定人的3D人脸扫描序列,那么我便可以通过Flame模型拟合,构建个性化的模型,然后通过改变表情参数,动作参数,从而生成一些新的表情,动作的3D数据,以进行动画制作等。除此之外,因为扫描数据的误差和缺失,我可以通过Flame模型,对数据进行拟合平滑,得到较为完善,完美的3D数据。除原创 2022-03-29 10:37:22 · 6791 阅读 · 3 评论 -
Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析
ABSTRACT:在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题。当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好。我们找到了导致这种问题的主要原因,并学习了一个强大的口型匹配模型。接着,我们提出新的口型评估标准,从而精准评估任意视频的口型匹配的准确度。结果表明,我们的模型wav2lip跟真实视频的准确率相当。1. INTRODUCTION:随着视频内容消费的爆炸增长,从而需要快速的视频创作。同时,让这些视频以不同的语言进行呈现也是一种挑原创 2022-03-15 16:41:18 · 8806 阅读 · 13 评论 -
OCR模型DBNet-------《Real-time Scene Text Detection with Differentiable Binarization》论文,模型,代码解剖
首先,我先对DBNet的论文进行重点翻译解释说明,之后再对整个模型进行解剖,最后再对官方源码的实现方法,关键代码进行分析,所以篇幅也比较长,之间会附带一些例子说明,让你更深刻的了解DBNet。论文解析:Abstract基于语义分割的文本检测模型得到广泛应用,因为其对各种形状的文本,如曲线文本,都有更好的精准度。然而,用于后处理生成区域的二值化对最终的检测效果起到关键影响,在这论文,提出了可微分二值化(Differentiable Binarization (DB)),它可以融入分割网络,结合原创 2021-11-16 11:16:29 · 3253 阅读 · 0 评论 -
换脸论文----《SimSwap An Efficient Framework For High Fidelity Face Swapping》解析
ABSTRACT:提出了新的换脸模型,Simple Swap(SimSwap),可以融合任意的source face跟target face,并且保存source face的身份及target face的属性特征。模型克服了以往模型的缺陷,通过两个创新点,1,提出了ID Injection Module(IIM)模块,通过这个模块,将针对特定的source face的框架扩展到适用任意的source face。2,提出了Weak Feature Matching Loss损失函数,他能帮助我们模型更好的原创 2021-10-12 14:52:17 · 2536 阅读 · 0 评论 -
换脸论文----《FaceShifter Towards High Fidelity And Occlusion Aware Face Swapping》解析
Abstract:提出了一个新颖的两阶段模型,称为FaceShifter,在第一阶段,提出了一个新的属性编码器提取多个层次的目标人脸属性,和一个精心设计的新的Adaptive Attentional Denormalization(AAD)层,在合成人脸时可以自适应集成身份和属性。在第二阶段,为了解决面部遮挡问题,设计了一个新的Heuristic Error Acknowledging Refifinement Network(HEAR-Net),经过训练,可以在不需要人工标注的情况下,以自我监督的方式原创 2021-09-18 19:46:00 · 811 阅读 · 0 评论 -
《A Survey of Quantization Methods for Efficient》论文解读------关于模型量化的报告
这篇文章是关于21年的论文《A Survey of Quantization Methods for Efficient》的解读,因为论文篇幅较大,所以不会全文翻译,只提取关键点进行翻译讲解。摘要:提出了在当下,内存或计算资源受限的情况下,如何将连续数值,分布至最小的比特数表示的离散数上,并且保证原先的准确率的问题。I. INTRODUCTION:在当前,我们通过堆积大量的参数,使我们的模型准确率得到明显的提高,然而,在资源受限,实时性要求的情况下,却存在壁垒,于是为了实现高精度,高...原创 2021-06-22 18:32:12 · 1161 阅读 · 0 评论 -
模型剪枝详解及pytorch代码实现
在当前的领域,随着需求的复杂程度以及难度,精度的要求越来越高,像实例分割等需求,对比分类模型,我们的模型结构变得越来越大,但同时,我们对实时性要求也越来越高,往往在33ms(大概在33ms处理完一帧才能达到不延迟的实时要求)以内要串联运行好几个模型,这就产生了相互矛盾,因此我们开始寻求高精度,低延迟的模型结构。于是,便出现了很多轻量级模型,比如mobileNet,shuffleNet,ghostNet等等,但往往这些还不足以支撑我们庞大的实时性需求,因此,我们往往还会对模型进行人工修改,比如修改backbo原创 2021-05-08 19:37:30 · 2415 阅读 · 0 评论 -
OpenPose论文解析
本文是对19年论文,对OpenPose改进版的论文进行解析。因为改进版官方代码未找到,所以本文单纯从论文层面对模型进行解析。本文只对算法流程,模型构建,Loss构成,公式整理,关键要点等进行整合解析,其他部分可以自己祥阅原论文,如贪婪算法的改进,新的脚部数据集等,但不妨碍对OpenPose的整体架构,模型,思想的理解。17年版本论文地址:https://arxiv.org/abs/1611.0805019年版本论文地址:https://arxiv.org/abs/1812.08008OpenPo原创 2021-01-04 12:02:00 · 3618 阅读 · 0 评论 -
自创实时高精度人脸检测模型原理及相关代码实现,及目标检测的各种相关知识,试验及细节。
本文是总结了我自创的一个高精度的,实时的人脸检测模型的相关文档及代码。在项目的过程中,使用了多种技巧的实现及试验结果。包括多种损失函数,多种NMS。模型的多种构建方式等等。最终模型在GPU上测试,使用keras框架,未剪枝的情况下,单张图片耗时10ms,即为100fps,模型的参数量为18w,模型大小为800KB。因计算mAP较为耗时,所以我只计算了在判断为人脸的conf阈值为0.4的识别标准,识别正确的IOU阈值为0.5的判断标准下,的准确率及召回率我将COCO数据集分为两部分,其一:原创 2020-11-23 17:12:21 · 352 阅读 · 1 评论 -
DSFD-Dual Shot Face Detector人脸检测模型原理代码超全面解剖
DSFD为19年腾讯提出的,用于人脸检测的轻量级实时模型,全称为Dual Shot Face Detector。接下来会给出模型的大结构,然后针对模型的创新点结合代码进行重点分析。首先论文的效果图如下:模型结构如下:模型的输入像素为640,模型结构采用single stage doul shot,backbone网络采用vgg16,类似于PyramidBox或S3FD网络,选择conv3_3,conv4_3,conv5_3,conv_fc7, conv6_2和conv7_2作为First原创 2020-11-21 18:14:32 · 1222 阅读 · 1 评论 -
FaceBoxes原理代码超全面解剖
FaceBoxes是一个人脸检测的轻量级模型,类似于YoloV3模型,采用了archor进行方框预测,FaceBoxes采用高像素1024*1024的图片输入,但在高分辨率输入的情况下,依然能达到实时效果。下面为论文给出的TABLE及效果图模型结构如下:模型使用了常规的卷积conv,池化maxPool,以及InceptionV3中提出的Inception模块,除此之外,模型还使用到CRelu激活函数,快速扩张channel数目。模型的输出:模型借鉴了YoloV3的多尺原创 2020-11-09 21:34:27 · 628 阅读 · 0 评论 -
DBFace原理代码超全面解剖
轻量级检测网络DBFace,因为我只使用到人脸检测,没用到特征点检测,所以特征点检测部分我不作分析。简介DBFace是用于人脸检测的轻量级网络,可部署于移动端实时运行。骨干网络为CenterNet,对比yolo,faster_rcnn等目标检测网络,CenterNet具有结构简单优雅,构建简单,数据处理简单,直接检测目标的中心及方框位置的特点。可以说,它放弃了之前一直被使用的AnchorBox,直接输出预测框的坐标,而不需通过Anchorbox进行转换。它也将输出分为多个grid cell.原创 2020-11-06 14:15:59 · 1820 阅读 · 0 评论