_张一凡-优快云博客

原创一文读懂llama1、llama2、llama3、llama3.1、llama3.2技术细节及实战应用

一文读懂llama1、llama2、llama3、llama3.1、llama3.2技术细节及实战应用

2024-05-09 22:26:35 4878

原创【AIGC面试面经第六期】AI视频-训练与微调技相关问答

本文介绍了AI视频生成与编辑的核心技术框架及优化策略。主要内容包括：1）主流AI视频生成技术（文本/图像/视频生成视频的工作流程）；2）预训练数据增强方法（时序、空间、语义增强策略）；3）特定领域（如体育视频）微调技术；4）跨模态训练关键点（表示对齐、训练策略等）；5）长视频生成的记忆机制与一致性保障方法；6）视频编辑中内容保持与修改的平衡策略；7）有限数据下的高效训练方案（数据增强、模型轻量化等）。这些技术为AIGC视频处理提供了系统化的解决方案。

2025-11-23 18:41:40 208

原创【每日一道算法题-1】一文吃透插入排序：原理、伪代码与双语言实现（C++/Python）

插入排序是一种简单直观的稳定排序算法，时间复杂度为O(n²)，空间复杂度为O(1)。其核心思想是将数组分为有序和无序两部分，逐个将无序元素插入到有序部分的正确位置。算法实现简单，适合小规模数据排序，尤其对接近有序的数据效率较高。本文详细解析了插入排序的原理、伪代码、C++和Python实现，并分析了其优缺点及适用场景。

2025-11-23 16:12:32 542

原创【AIGC面试面经第五期】AI绘画-AI绘画框架相关问答

《AIGC算法工程师面试秘籍》是一份涵盖主流AI绘画框架和核心技术的指南，重点解析了Stable Diffusion WebUI和ComfyUI的工作原理。该资料系统介绍了Variation Seed的运行机制、不同采样器原理（如Euler、DPM++2M等）、热门插件（UltimateSDUpscale、Tiled VAE等）的工作方式，并对比了ComfyUI与WebUI的设计差异。此外，还详细分析了Diffusers、Fooocus、SD.Next等主流框架的特点与优劣，为开发者提供了从基础概念到进阶应

2025-11-09 18:48:15 1039

原创【AIGC面试面经第四期】LLM-Qwen相关问答

本文系统介绍了Qwen3系列模型的架构特点、训练方法及性能表现。主要内容包括：1）模型架构采用GQA、RoPE等先进技术，MoE模型创新实现专家专业化；2）预训练数据扩展至36T token，覆盖119种语言，通过多阶段训练优化模型性能；3）Embedding和Rerank模型在MTEB榜单表现优异，支持多语言和定制化需求；4）评估显示Qwen3在通用知识、推理、数学等15个基准测试中超越同类模型，MoE架构尤其高效。项目还开源了AIGC算法工程师面试资料库，促进技术交流。

2025-10-29 23:43:27 1289

原创【AIGC面试面经第三期】LLM、AI绘画、AI视频每日问答篇

摘要：本文系统介绍了AI领域多项核心技术。在LLM方面，详细解析了缓解推理重复问题的策略（如惩罚机制、多样性采样等）和大模型智能体的三端架构（控制端、感知端、行动端）。AI绘画篇深入探讨了扩散模型的噪声调度策略（线性/余弦/平方根调度）和PAG引导方法。视频生成部分对比分析了GAN的应用局限和VAE的优势。最后推荐了开源的AIGC算法工程师面试资料库，涵盖多领域核心知识。这些内容为AI从业者提供了从理论到实践的系统性技术参考。

2025-10-15 11:37:56 736

原创【AIGC面试面经第二期】LLM、AI绘画、AI视频每日问答篇

本文摘要： LLM篇：探讨减轻大模型"幻觉"现象的方法，包括改进训练数据、后处理技术和模型架构优化；介绍大模型强化学习的核心研究方向，如RLHF和多模态强化学习。 AI绘画篇：解析DDIM通过非马尔可夫过程加速图像生成的原理；比较classifier guidance和classifier-free guidance两种引导技术的区别和应用场景。 AI视频篇：总结主流视频生成技术框架；分析扩散模型在视频编辑中面临的动态维度适应、数据集稀缺和帧间一致性等挑战。面试资源：推荐AIGC算法工

2025-10-10 11:05:09 782

原创【AIGC面试面经第一期】LLM、AI绘画、多模态每日问答篇

本文系统梳理了AI领域的核心知识点，分为三大部分：大语言模型篇：解析了PrefixDecoder、CausalDecoder和Encoder-Decoder的区别，以及模型命名中7B/13B等参数量的含义。 AI绘画篇：对比了Diffusion和GAN的技术特点与应用场景，介绍了cfg参数在图像生成中的作用机制。多模态篇：阐述了多模态思维链(MCoT)的概念及其与单模态CoT的区别，探讨了CoT在视频理解中的具体应用与挑战。文末推荐了开源AIGC面试资料库，包含2.4K星标的《AIGC算法工程师面试秘

2025-10-09 11:58:36 972

原创 OpenAI Sora 2提示词指南：打造精准视频生成指令

OpenAI发布Sora 2提示词指南，帮助用户高效生成视频内容。指南强调提示词应作为"创意愿望清单"，平衡精准控制与模型创造力。关键建议包括：提示词需包含镜头、动作、灯光等核心要素；优先生成4秒短镜头再组合；用专业术语描述电影感场景；通过Remix功能进行可控微调。指南还提供了详细参数建议、优化技巧和实用模板，如使用"视觉线索"定风格、精准控制动作时机、保持光线一致性等。完整资源可查看OpenAI Cookbook相关链接。

2025-10-09 11:52:47 3237

原创一文梳理大模型面试准备策略，希望大伙都能上岸！

各大厂在校招中对大模型岗位候选人的要求可以概括为“基础知识扎实+项目经验深入”，尤其看重候选人将技术应用于实际业务场景的能力。以下是针对大模型岗位校招的全面解析和准备建议。

2025-09-26 16:18:52 1164

原创【大模型推理第一期】一文读懂Transformer模型自注意力机制的O(N²)瓶颈与存储挑战

Transformer模型的核心计算复杂度与存储消耗均随输入序列长度N呈O(N²)增长，这主要源于自注意力机制的计算特性。自注意力层通过QKV矩阵相乘生成N×N的注意力矩阵，导致计算量达O(N²·dₖ)；存储方面，注意力矩阵和推理时的KVCache分别带来O(N²)和O(L·N·d)的开销。相比之下，前馈网络(FFN)的计算复杂度为线性O(N·d²)。当序列长度N超过模型维度dₖ时，二次项复杂度成为主要瓶颈，限制了Transformer处理长序列的能力。这一特性在训练和推理时分别表现为注意力矩阵和KVCac

2025-09-26 16:07:35 724

原创一文读懂deepseek技术细节及实战应用（持续更新）

DeepSeek（深度求索）开发了一系列大语言模型，这些模型在性能上接近甚至在某些场景中超越了国际领先水平，同时训练和推理成本较低。DeepSeek以其卓越的性能、显著的成本优势和开放的开源策略，在AI领域独树一帜，为用户提供了高效、智能的服务体验。DeepSeek系列模型从最初的DeepSeek LLM到如今的DeepSeek R1，历经多代演进。在架构设计、训练算法、推理效率和模型表现等方面，每一代都实现了显著的创新与优化。本文将深入剖析DeepSeek系列模型的原理及其应用。

2025-02-09 18:56:35 1378

原创 llama3.2技术细节以及相关内容详解

Llama 3.2系列涵盖了小型和中型视觉LLM（参数分别为11B和90B）以及适用于边缘和端侧的轻量级纯文本模型（1B和3B），包含了预训练和指令调优版本。1B和3B模型：这些模型能够处理长达128K的令牌上下文，位于行业前列，适用于设备端的总结、指令追踪以及边缘环境中的文本重写任务。11B和90B视觉模型：在图像理解方面，性能超越了诸如Claude 3 Haiku等封闭模型，能够处理文档理解（包括图表和图形）、图像字幕生成以及基于自然语言描述的图像中对象精确定位等任务。

2024-09-29 20:12:32 2513

原创 OpenAI草莓正式发布，命名o1

当地时间 9 月 12 日，OpenAI 推出全新模型 o1，它是该公司计划推出的一系列“推理”模型中的首个，也就是此前业内传闻许久的“Strawberry（草莓）”项目。据悉，o1 模型在众多任务中能够比人类更迅速地处理复杂查询，展现出前所未有的强大推理能力。同时，OpenAI 还发布了一个较小且更为经济实惠的版本 o1-mini。对 OpenAI 来说，o1 的发布意味着公司在迈向实现类人人工智能这一宏大目标的道路上迈出了重要一步。

2024-09-14 18:19:35 749

原创通往RAG之路（二）：版面结构检测方法介绍

RAG系统搭建过程中，版面分析是不可缺少的一个步骤，本文介绍用yolov5进行版面结构信息识别，后续再搭配表格识别、公式识别、文字识别等模块进行版面还原，完成PDF结构化输出。

2024-09-01 18:29:56 1442

原创通往RAG之路（一）：RAG基础知识介绍

RAG (Retrieval-Augmented Generation) 是一种结合了检索和生成两种方法的自然语言处理（NLP）技术。它通过先检索相关的文档或信息，再使用生成模型（如GPT-3）生成答案。这种方法在处理需要丰富背景信息的问题时特别有效。RAG不仅仅面向文本，它还可以面向语音、视频和图像等多模态场景，只要可以embedding的内容就可以。检索（Retrieval）：首先从一个大型文本数据库中检索出与问题相关的文档。通常检索到的相关文档有很多个，还需要将文档进行相应筛选和排序。

2024-08-04 20:00:36 1105

原创从零开始搭建基于Langchain以及开源LLM的RAG 系统

RAG (Retrieval-Augmented Generation) 是一种结合了检索和生成两种方法的自然语言处理（NLP）技术。它通过先检索相关的文档或信息，再使用生成模型（如GPT-3）生成答案。这种方法在处理需要丰富背景信息的问题时特别有效。RAG不仅仅面向文本，它还可以面向语音、视频和图像等多模态场景，只要可以embedding的内容就可以。RAG的主要流程如下：检索（Retrieval）：首先从一个大型文本数据库中检索出与问题相关的文档。

2024-06-23 16:50:07 1587

原创 Pytorch学习笔记(一)-神经网络参数的冻结与解冻

比如在目标检测模型中，如果修改了主干特征提取网络，只要不是直接替换为现有的其它神经网络，基本上预训练权重是不能用的，要么就自己判断权值里卷积核的shape然后去匹配，要么就只能利用这个主干网络在诸如ImageNet这样的数据集上训练一个自己的预训练模型；因此，通过关闭或打开参数的梯度计算即可实现参数的冻结与解冻。PyTorch提供了state_dict()和load_state_dict()两个方法用来保存和加载模型参数，前者将模型参数保存为字典形式，后者将字典形式的模型参数载入到模型当中。

2023-03-08 11:23:07 1252

原创 pytorch打印模型参数

pytorch 打印模型参数的几种方式

2023-03-07 11:12:05 951

原创 Insightface记录——验证集制作

insightface 验证集制作，不同人的两两组合图像对，标签是0，代表是不同人。标签为1，是同一个人的两两组合图相对，同样网上找到跑不通，自己修改了一些内容。

2023-02-21 09:14:03 356 1

原创解决多卡加载预训练模型0卡内存占用大的问题

在多卡加载与训练模型的时候，出现显卡内存不足的错误，batchsize放到很小以后观察发现第一张卡占用内存比其他几张大了很多。把预训练模型参数map到cpu上去。

2023-02-20 16:29:11 1321

原创 python 循环读取文件夹图片并将路径保存到txt文本

【代码】python 循环读取文件夹图片并将路径保存到txt文本。

2022-12-19 12:11:08 1336

原创 OpenCVMat图片复制

OpenCV关于Mat图片复制

2022-12-13 20:53:48 418

原创基于yolov5的Android版本目标检测app开发（部署安卓手机）

基于yolov5的Android版本目标检测app开发（部署安卓手机）1、开发环境搭建2、数据集准备3、模型训练4、模型转换5、Androidapp开发6、运行检测7、项目开发中遇到的问题总结

2022-04-04 17:22:30 15459 18

原创论文一---Deep White-Balance Editing, CVPR 2020 (Oral)_学习记录（论文解读）

论文之—Deep White-Balance Editing, CVPR 2020 (Oral)_学习记录0、论文下载：论文下载，源码下载：源码下载1、论文阅读理解Abstract我们引入了一种深度学习方法来真实地编辑sRGB图像的白平衡。相机捕捉传感器图像，由其集成的信号处理器(ISP)渲染到标准的RGB (sRGB)颜色空间编码。ISP渲染从一个白平衡程序开始，该程序用于去除场景照明的颜色。然后ISP应用一系列非线性色彩处理来提高最终sRGB图像的视觉质量。[3]最近的工作表明，由于ISP

2022-03-20 21:52:29 5162

原创 YOLOX 训练环境搭建

YOLOX 训练环境搭建本人系统内核信息(base) mr_zhang@mrzhang940328:~/桌面$ uname -aLinux mrzhang940328 5.11.0-27-generic #29~20.04.1-Ubuntu SMP Wed Aug 11 15:58:17 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux1、创建conda环境conda create -n Yolox python=3.72、激活环境conda activate Y

2021-09-12 19:40:50 1144

原创 Python 学习记录一用Python 读取图片并显示

MFC的六大关键技术：MFC的初始化过程，运行类别识别RTTI,动态创建，永久保存，消息映射和消息传递。

2021-06-25 23:03:15 310

原创 MFC读取24位BMP图片和8位bmp图片

1.对于BMP图像的个人理解一张BMP图像通常包含4部分，文件头BITMAPFILEHEADER，信息头BITMAPINFOHEADER，颜色表，实际数据。其中读取24位图像（biBitcount=24）和8位图像（biBitcount==8）的区别就是24位图像颜色表为空，而8位图像则含有256种颜色。话不多说直接上代码。2.基于VS2012 mfc的bmp图像读取代码//定...

2019-08-13 16:06:09 1457

原创 malloc.h

malloc.h，是动态存储分配函数头文件,当对内存区进行操作时,调用相关函数。函数原型：void *malloc(unsigned int num_bytes);参数： num_bytes 是无符号整型，用于表示分配的字节数。返回值：如果分配成功则返回指向被分配内存的指针(此存储区中的初始值不确定)，否则返回空指针NULL。void* 表示...

2019-01-06 20:14:13 3898

原创一，VS2012与opencv3.0.0的配置

使用的版本：用的VS2012和opencv3 值得注意的是，如果你用的VS是2012opencv就要用VC11,依此类推。环境变量的配置.：在系统变量里添加D:\OPENCV 3.1.0\opencv\build\x64\vc11\bin，不是在用户变量里。VS配置Opencv include库；include,opencv;opencv2;VS配置Opencv lib库；链接器配置：版本不一样...

2018-06-15 16:18:21 445

weixin_31588979的博客