AI
文章平均质量分 78
AI
培根芝士
相看两厌,不若相忘于江湖
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于docker部署vllm运行Qwen3模型
本文介绍了使用Docker部署vLLM推理服务的详细步骤,支持Qwen3系列模型。主要内容包括:1) 拉取vLLM Docker镜像;2) 提供了Qwen3-14B-AWQ和Qwen3-VL-8B-AWQ-INT4两种模型的启动命令,包含端口映射、显存控制等关键参数;3) 给出了对应的Python测试代码示例,展示如何通过OpenAI兼容API调用模型进行文本生成和视觉内容分析;4) 详细解释了各项运行参数的含义,如GPU使用、模型精度、上下文长度等配置项。该方案可实现高效的模型推理服务部署。原创 2025-12-02 11:47:36 · 451 阅读 · 0 评论 -
使用llm-compressor 对 Qwen3-14B 做 AWQ + INT4 量化
本文详细介绍了Qwen3-14B模型的AWQ+INT4量化流程。首先通过Conda创建Python3.10环境并安装PyTorch、vLLM等必要依赖。然后提供完整的量化脚本实现:加载原始模型和分词器,使用ultrachat_200k数据集校准,配置W4A16方案进行INT4量化,最后保存量化后的模型并测试生成效果。整个过程包括环境准备、GPU验证、量化参数配置、测试生成和模型保存等关键步骤,最终生成包含压缩权重的量化模型目录。原创 2025-12-02 11:20:39 · 330 阅读 · 0 评论 -
使用 OpenVINO 对 Qwen3-14B 模型进行 INT4 量化
摘要:本文介绍了使用Optimum-Intel工具对Qwen3-14B大模型进行INT4权重量化的方法。通过optimum-cli命令可实现4-bit量化(默认int4_asym),其中--ratio参数控制80%层使用INT4、其余用INT8,--group-size设为128以平衡精度与效率。量化后的模型可通过OpenVINO GenAI加载,支持CPU/GPU/NPU设备运行。示例展示了如何用Python调用量化模型进行文本生成,并验证INT4量化对LLM性能的影响。该方法有效减小模型体积,同时保持推原创 2025-11-27 14:17:05 · 326 阅读 · 0 评论 -
基于 OpenVINO GenAI 运行Qwen3-14B模型推理
摘要:英特尔OpenVINOGenAI是专为生成式AI开发优化的工具库,支持在CPU、GPU等英特尔硬件上高效部署多模态应用。本文详细介绍Qwen3-14B-INT4-OV模型的安装、量化和推理流程,包括设备兼容性检查、推理性能指标(如TTFT首token时间)的测量方法,以及如何通过流式生成计算token吞吐量。实验显示该工具能有效简化大语言模型在英特尔平台上的部署,并提供详细的性能分析功能。(148字)原创 2025-11-12 10:41:56 · 293 阅读 · 0 评论 -
OpenWebUI本地开发指南
本文介绍了Open WebUI项目的开发环境搭建与部署流程。首先需准备操作系统和开发环境(Python 3.11+、Node.js 22.10+),然后克隆代码仓库。前端部分需配置环境变量、安装依赖并启动开发服务,后端建议使用Conda隔离Python环境后启动服务。文章还提供了跨设备联调方法,包括局域网访问配置和CORS白名单设置。最后给出了Linux和Windows系统下的Docker镜像编译脚本,包含端口映射、数据卷挂载等配置参数,支持项目容器化部署。原创 2025-11-12 10:27:57 · 353 阅读 · 0 评论 -
使用Optimum-habana对LLM模型训练推理
摘要:optimum-habana是连接Transformers/Diffusers库与Intel Gaudi AI加速器(HPU)的接口工具,支持单卡和多卡环境下的模型训练与推理。它提供已验证支持的多种主流模型架构(如BERT、GPT、Llama等)及任务类型(文本生成、问答等)。文档详细介绍了Docker环境搭建、依赖安装方法,以及单卡/多卡训练、LoRA微调和模型推理的具体配置参数,特别是针对大语言模型(如Llama-2 70B)的分布式训练优化方案。原创 2025-09-26 19:54:00 · 1168 阅读 · 0 评论 -
Llama-Factory微调 Qwen2.5-VL-3B 模型
本文详细介绍了Qwen2.5-VL-3B多模态模型的LoRA微调全流程。首先说明硬件需求(3B模型约需8-12GB显存)和环境搭建步骤,包括创建虚拟环境、安装依赖项和下载模型。重点阐述了多模态数据集准备规范(JSON格式+图像目录)和数据集注册方法。推荐使用LoRA轻量级微调以降低显存需求,提供了命令行和WebUI两种训练方式及详细参数配置。最后介绍模型测试、导出方法和常见问题解决方案,特别强调数据质量、显存优化和模型兼容性等关键注意事项。原创 2025-08-21 19:57:01 · 1436 阅读 · 0 评论 -
LTM框架Letta
Letta是一个开源框架,用于构建具有长期记忆和高级推理能力的有状态AI代理。框架支持多种模型和数据库,安装后可通过环境变量配置LLM和嵌入模型。提供本地服务器运行和Web开发环境(ADE),支持API接口管理代理,包括创建、查询和交互功能。兼容SQLite和PostgreSQL,支持Ollama等本地模型部署。开发者可通过REST API或Python客户端实现代理管理,适用于构建复杂的对话系统和智能应用。原创 2025-08-21 19:22:58 · 555 阅读 · 0 评论 -
基于SIFT/ORB计算图像的旋转角度和缩放比例
文章摘要:本文介绍了通过特征点匹配计算图像间旋转角度的方法。使用SIFT或ORB算法提取特征点,BFMatcher进行匹配,再用estimateAffinePartial2D函数计算仿射变换矩阵,从中提取旋转角度和缩放比例。提供了完整的SIFT和ORB实现代码,并指出特征匹配质量、旋转角度范围和算法性能等注意事项。该方法适用于图像处理中的旋转检测,可根据实际需求选择不同特征提取算法。原创 2025-08-20 09:56:55 · 453 阅读 · 0 评论 -
Qwen2.5-VL-3B模型4bit推理
阿里巴巴推出新一代多模态模型Qwen2.5-VL,支持图像、文本和视频理解,具备更强的代理决策能力。该模型采用优化架构,支持结构化输出,在文档图表理解和视频分析任务中表现优异。提供3B到72B多种规模版本,其中3B模型经量化后可在8GB显存设备运行。文章详细介绍了模型特性、硬件要求、部署方法及输入格式限制,并提供了4-bit量化推理的代码示例和显存优化建议。原创 2025-08-06 00:37:15 · 1392 阅读 · 0 评论 -
使用BART模型和T5模型实现文本改写
摘要:BART和T5是两种主流的预训练语言模型,均采用编解码架构。BART结合BERT的双向编码和GPT的自回归解码,通过文本破坏还原任务预训练,适用于生成和理解任务。T5提出统一文本到文本框架,所有任务均转换为text-to-text形式,采用span掩码预训练。两者都支持多种下游任务,BART更侧重生成,T5强调任务统一性。中文场景下可通过微调实现文本改写等功能,典型实现使用HuggingFace的transformers库加载预训练权重进行推理。原创 2025-08-01 20:08:30 · 1043 阅读 · 0 评论 -
YOLOv11.pt 模型转换为 TFLite 和 NCNN 模型
鉴于 Windows 的兼容性问题,强烈建议使用 Google Colab,因为它提供 Linux 环境,预装 CUDA,兼容 ai_edge_litert。只需上传模型和脚本,安装依赖即可完成转换。原创 2025-07-29 23:48:38 · 974 阅读 · 0 评论 -
图像特征检测算法ORB
ORB(Oriented FAST and Rotated BRIEF)是一种在计算机视觉领域广泛应用的特征检测与描述算法。原创 2025-06-19 18:00:49 · 736 阅读 · 0 评论 -
图像特征检测算法SIFT
SIFT(Scale - Invariant Feature Transform,尺度不变特征变换)是一种计算机视觉领域的特征提取算法,具有重要的地位和广泛的应用。原创 2025-06-19 17:52:40 · 1102 阅读 · 0 评论 -
图像特征检测算法SuperPoint和SuperGlue
SuperPoint 是一个自监督的全卷积神经网络,用于提取图像中的兴趣点及其描述子。它在 2018 年由 Magic Leap 提出,通过在合成数据集上预训练一个基础检测器 MagicPoint,然后利用同胚适应技术对真实图像数据集进行标记,从而得到一个增强的检测器 SuperPoint,使其在真实世界图像上具有可靠性。原创 2025-06-17 19:34:52 · 1241 阅读 · 0 评论 -
Python去除图像背景
rembg 是一个开源的 Python 库,专门用于去除图像背景,它利用深度神经网络能够准确地识别并去除图像背景,使用户无需进行复杂的手动编辑,只需几行代码即可获得专业效果。Rembg 基于 U2-Net 架构,有多种架构修改和经过测试的方法以提供最佳结果,还提供对 GPU 安装的访问以实现更快的处理。原创 2025-06-17 19:14:52 · 325 阅读 · 0 评论 -
图像特征检测算法
图像特征检测是计算机视觉的基础技术,用于提取图像中的关键信息。传统算法包括SIFT(高鲁棒性但计算慢)、SURF(SIFT的加速版本)、ORB(实时性强)、Harris角点检测(简单高效)和FAST(极速检测)。边缘检测算法如Canny可提取连续轮廓,HOG和LBP分别适用于形状和纹理特征。深度学习方法如CNN和SuperPoint通过端到端学习实现更高精度。算法选择需权衡速度、精度和应用场景,当前趋势是深度学习主导、轻量化部署和多模态融合。传统与深度学习方法正在融合,以构建更高效的视觉系统。原创 2025-06-17 19:12:20 · 1091 阅读 · 0 评论 -
使用 LSTM/GRU 预测设备异常的模型
LSTM 和 GRU 都被广泛应用于自然语言处理、时间序列预测、语音识别等领域。LSTM 由于其强大的长期依赖建模能力,在需要处理长序列数据时通常表现更好,但计算成本较高。而 GRU 在一些对实时性要求较高或计算资源有限的场景下,由于其结构简单、计算效率高,可能会成为更优的选择。原创 2025-05-16 16:40:56 · 1229 阅读 · 0 评论 -
使用 swift 微调 Qwen3-4b 模型
Qwen3 推荐使用 Axolotl、UnSloth、Swift、Llama-Factory 等训练框架来进行 SFT、DPO、GRPO 等微调模型的处理。魔搭社区提供的 ms-swift 框架,支持 500 多种大模型与 200 多种多模态大模型的训练、推理、评测、量化与部署,涵盖众多知名模型。它还汇集了多种轻量化训练技术及人类对齐训练方法,并支持使用 vLLM 和 LMDeploy 进行加速,同时运用多种技术对大模型量化,且提供了基于 Gradio 的 Web-UI 界面及丰富最佳实践。原创 2025-05-09 15:00:20 · 1072 阅读 · 0 评论 -
Optimum详解
Optimum 是 Hugging Face 提供的 Transformers 和 Diffusers 的扩展库,旨在帮助用户在目标硬件上以最高效率训练和运行模型,同时保持易于使用的特性。原创 2025-05-08 18:26:18 · 1489 阅读 · 0 评论 -
基于 MeloTTS.cpp 的轻量级的纯 C++ 文本转语音(TTS)库
是一个轻量级的纯 C++ 文本转语音(Text-to-Speech,TTS)库,由 MyShell.ai 开发并发布。它基于 MeloTTS 项目,支持多种语言的语音合成,包括英语、中文(混合英语)以及即将支持的日语等。原创 2025-04-28 14:32:36 · 1760 阅读 · 0 评论 -
OpenCV 模板匹配
cv2.matchTemplate 是 OpenCV 中用于模板匹配的函数,它可以在一幅大图像中查找与模板图像相似的区域。以下是关于该函数的详细说明和使用方法:原创 2025-02-12 18:54:46 · 1351 阅读 · 0 评论 -
DeepSeek本地部署
Ollama 是一个用于运行大型语言模型(如 Llama 3.3、DeepSeek-R1、Phi-4、Gemma 2 等)的框架,支持本地部署和使用。原创 2025-02-10 16:39:39 · 1052 阅读 · 0 评论 -
微软开源AI Agent AutoGen 详解
AutoGen是微软发布的一个用于构建AI Agent系统的开源框架,旨在简化事件驱动、分布式、可扩展和弹性Agent应用程序的创建过程。原创 2025-01-16 14:25:12 · 2144 阅读 · 0 评论 -
Stable Video Diffusion(SVD)搭建部署
Stable Video Diffusion(SVD)是Stability AI于2023年11月21日发布的视频生成式大模型,是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率,用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。原创 2025-01-14 14:39:09 · 2744 阅读 · 2 评论 -
使用 Optimum Habana 在 Intel Gaudi 上加速模型训练与推理
Optimum Habana 是 Hugging Face 开发的一个开源库,旨在帮助开发者在 Intel® Gaudi® AI 加速器(HPU,Habana Processing Unit) 上高效地训练和推理大规模的机器学习模型,特别是 Transformer 和 Diffuser 模型。它作为 Hugging Face Optimum 系列工具的一部分,专注于优化模型在 Gaudi 硬件上的性能,使开发者能够更轻松地利用 Gaudi 加速器的计算能力。原创 2025-01-06 13:05:35 · 1123 阅读 · 0 评论 -
分类任务中评估模型性能的核心指标
在机器学习尤其是分类任务中,Accuracy(准确率)、Precision(精确率)、Recall(召回率)和F1 Score(F1分数)是评估模型性能的四个核心指标。原创 2024-10-18 18:49:19 · 1373 阅读 · 0 评论 -
Clip模型详解
CLIP(Contrastive Language-Image Pre-training)是由OpenAI在2021年推出的一种基于对比学习的多模态预训练模型,它通过大规模的图像和文本数据进行训练,使得模型能够理解图像内容和相关文本之间的语义关系。这种模型能够同时理解文本和图像,可以看作是一个连接语言和视觉两种信息形式的桥梁。CLIP的核心贡献在于它打破了传统的固定类别标签范式,通过对比学习的方式,将图像和文本映射到同一个向量空间中,从而实现跨模态的检索和分类。原创 2024-10-16 20:20:29 · 3712 阅读 · 0 评论 -
Transformer的预训练模型
Transformer的预训练模型有很多,其中一些在自然语言处理(NLP)和计算机视觉等领域取得了巨大成功。原创 2024-10-16 19:39:31 · 1517 阅读 · 0 评论 -
Midjourney参数详解
Midjourney的参数是添加到提示词中的选项,用于更改图像的生成方式。这些参数可以调整图像的宽高比、风格、质量、随机性等多个方面。原创 2024-09-24 15:09:03 · 1868 阅读 · 0 评论 -
Transformer 架构详解
Transformer 架构是由 Ashish Vaswani 和他的同事们在 2017 年的论文《Attention is All You Need》中首次提出的。它在自然语言处理(NLP)和其他序列建模任务中取得了前所未有的成功。Transformer 模型完全基于自注意力机制,摒弃了循环和卷积操作,这使得它在处理长序列数据时具有显著优势,并且能够实现并行化计算。原创 2024-09-19 19:02:49 · 1373 阅读 · 0 评论 -
CNN卷积神经网络详解
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,专门用于处理具有网格结构的数据,如图像、视频等。它在计算机视觉、自然语言处理、语音识别等领域有着广泛的应用。原创 2024-09-18 15:03:23 · 2167 阅读 · 0 评论 -
卷积核详解
卷积核(Convolution Kernel),简单来说,就是在进行图像处理或信号处理时,用来“扫描”或“滑动”过原始数据(比如一张图片)的一个小型矩阵。这个矩阵里面包含了一些数值,这些数值在滑动过程中与原始数据对应位置的数值进行特定的数学运算(通常是乘法后求和),从而生成新的数据或特征。原创 2024-09-18 12:10:57 · 1202 阅读 · 0 评论 -
timm图像模型库
timm(PyTorch Image Models)是一个集合了多种SOTA(State of the Art)计算机视觉模型、层、实用工具、优化器、调度器、数据加载器、增强策略以及训练/验证脚本的库,旨在简化模型的选择、创建和微调过程。它支持超过700种预训练模型,并且可以轻松地进行加载和使用。原创 2024-09-14 11:15:30 · 1835 阅读 · 0 评论 -
RepLKNet架构详解
RepLKNet 通过引入大卷积核和重参数化技术,有效地结合了 Vision Transformer 的全局建模能力和 CNN 的高效计算优势。其设计创新在于既保持了卷积网络的结构简单性和计算效率,又通过大卷积核弥补了 CNN 在处理长距离依赖信息时的不足。因此,RepLKNet 是一种强大的模型架构,适用于各类计算机视觉任务,在大规模数据集上的表现尤其出色。原创 2024-09-12 15:48:58 · 1289 阅读 · 0 评论 -
ConvNeXt架构详解
ConvNeXt 是一种现代化的卷积神经网络架构,结合了 ResNet 的经典设计和 Vision Transformer 的创新元素。通过一系列巧妙的调整和优化,ConvNeXt 证明了卷积网络在处理视觉任务时依然可以与 Transformer 相媲美,甚至在某些场景下有更好的计算效率和性能表现。原创 2024-09-12 15:38:23 · 2623 阅读 · 0 评论 -
ComfyUI使用Flux模型
ComfyUI是一个强大的用户界面,支持多种图像处理和生成模型,而Flux是一系列由Black Forest Labs开发的扩散模型。原创 2024-08-31 18:16:13 · 3173 阅读 · 0 评论 -
Python使用OpenCV识别图片人脸
在Python中,识别图片中的人脸并获取人脸区域的坐标,通常可以使用OpenCV库结合Haar特征分类器来实现。原创 2024-08-30 12:05:36 · 1356 阅读 · 0 评论 -
AIGC生成图像检测
丰富纹理区域中的像素表现出比贫乏纹理区域中的像素更显著的波动。他们采用ResNet-50作为分类器,并观察到包括JPEG压缩和高斯模糊在内的数据增强可以提高检测器的泛化能力,这意味着检测器可以很好地泛化到未见过的架构、数据集和训练方法。LNP观察到真实图像的噪声模式在频率域中表现出相似的特征,而生成图像的噪声模式则截然不同。LGrad提取了一个训练良好的图像分类器获得的梯度图,作为GAN生成图像的指纹。基于这一观察,他们旨在通过将全局纹理提取融入常见的ResNet结构中,来提高检测器的泛化能力和鲁棒性。原创 2024-08-08 10:46:18 · 2671 阅读 · 0 评论 -
YOLOv8目标检测算法详解
YOLOv8是Ultralytics公司最新推出的Yolo系列目标检测算法,建立在Yolo系列历史版本的基础上,并引入了新的功能和改进点,以进一步提升性能和灵活性。它是实现目标检测、图像分割、姿态估计等任务的最佳选择之一。YOLOv8是一种基于深度学习的目标检测算法,其核心思想是将目标检测问题转化为一个回归问题,通过一次前向传播过程即可完成目标的位置和类别预测。它继承了YOLO系列算法的优点,如速度快、实时性好等,并在准确性和泛化能力上进行了进一步的提升。原创 2024-06-27 13:09:08 · 5087 阅读 · 1 评论
分享