
AI
文章平均质量分 80
AI
培根芝士
相看两厌,不若相忘于江湖
展开
-
使用 LSTM/GRU 预测设备异常的模型
LSTM 和 GRU 都被广泛应用于自然语言处理、时间序列预测、语音识别等领域。LSTM 由于其强大的长期依赖建模能力,在需要处理长序列数据时通常表现更好,但计算成本较高。而 GRU 在一些对实时性要求较高或计算资源有限的场景下,由于其结构简单、计算效率高,可能会成为更优的选择。原创 2025-05-16 16:40:56 · 996 阅读 · 0 评论 -
使用 swift 微调 Qwen3-4b 模型
Qwen3 推荐使用 Axolotl、UnSloth、Swift、Llama-Factory 等训练框架来进行 SFT、DPO、GRPO 等微调模型的处理。魔搭社区提供的 ms-swift 框架,支持 500 多种大模型与 200 多种多模态大模型的训练、推理、评测、量化与部署,涵盖众多知名模型。它还汇集了多种轻量化训练技术及人类对齐训练方法,并支持使用 vLLM 和 LMDeploy 进行加速,同时运用多种技术对大模型量化,且提供了基于 Gradio 的 Web-UI 界面及丰富最佳实践。原创 2025-05-09 15:00:20 · 534 阅读 · 0 评论 -
Optimum详解
Optimum 是 Hugging Face 提供的 Transformers 和 Diffusers 的扩展库,旨在帮助用户在目标硬件上以最高效率训练和运行模型,同时保持易于使用的特性。原创 2025-05-08 18:26:18 · 705 阅读 · 0 评论 -
基于 MeloTTS.cpp 的轻量级的纯 C++ 文本转语音(TTS)库
是一个轻量级的纯 C++ 文本转语音(Text-to-Speech,TTS)库,由 MyShell.ai 开发并发布。它基于 MeloTTS 项目,支持多种语言的语音合成,包括英语、中文(混合英语)以及即将支持的日语等。原创 2025-04-28 14:32:36 · 1217 阅读 · 0 评论 -
部署Fish-Speech实现声音克隆及文本转语音
FishSpeech 是由Fish Audio团队开发的一款开源文本转语音(TTS)模型,支持多语言的语音合成和识别。它采用先进的深度学习技术,能够生成自然流畅的语音,并提供高质量的语音转文字功能。FishSpeech 支持声音克隆,仅需15秒的音频样本即可生成相似语音。它还支持本地部署,用户可以在个人设备上轻松运行,仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域,为语音交互提供了强大的技术支持。原创 2025-04-12 19:02:07 · 619 阅读 · 0 评论 -
OpenCV 模板匹配
cv2.matchTemplate 是 OpenCV 中用于模板匹配的函数,它可以在一幅大图像中查找与模板图像相似的区域。以下是关于该函数的详细说明和使用方法:原创 2025-02-12 18:54:46 · 1174 阅读 · 0 评论 -
DeepSeek本地部署
Ollama 是一个用于运行大型语言模型(如 Llama 3.3、DeepSeek-R1、Phi-4、Gemma 2 等)的框架,支持本地部署和使用。原创 2025-02-10 16:39:39 · 942 阅读 · 0 评论 -
微软开源AI Agent AutoGen 详解
AutoGen是微软发布的一个用于构建AI Agent系统的开源框架,旨在简化事件驱动、分布式、可扩展和弹性Agent应用程序的创建过程。原创 2025-01-16 14:25:12 · 1591 阅读 · 0 评论 -
Stable Video Diffusion(SVD)搭建部署
Stable Video Diffusion(SVD)是Stability AI于2023年11月21日发布的视频生成式大模型,是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率,用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。原创 2025-01-14 14:39:09 · 1582 阅读 · 2 评论 -
使用 Optimum Habana 在 Intel Gaudi 上加速模型训练与推理
Optimum Habana 是 Hugging Face 开发的一个开源库,旨在帮助开发者在 Intel® Gaudi® AI 加速器(HPU,Habana Processing Unit) 上高效地训练和推理大规模的机器学习模型,特别是 Transformer 和 Diffuser 模型。它作为 Hugging Face Optimum 系列工具的一部分,专注于优化模型在 Gaudi 硬件上的性能,使开发者能够更轻松地利用 Gaudi 加速器的计算能力。原创 2025-01-06 13:05:35 · 978 阅读 · 0 评论 -
分类任务中评估模型性能的核心指标
在机器学习尤其是分类任务中,Accuracy(准确率)、Precision(精确率)、Recall(召回率)和F1 Score(F1分数)是评估模型性能的四个核心指标。原创 2024-10-18 18:49:19 · 1029 阅读 · 0 评论 -
Clip模型详解
CLIP(Contrastive Language-Image Pre-training)是由OpenAI在2021年推出的一种基于对比学习的多模态预训练模型,它通过大规模的图像和文本数据进行训练,使得模型能够理解图像内容和相关文本之间的语义关系。这种模型能够同时理解文本和图像,可以看作是一个连接语言和视觉两种信息形式的桥梁。CLIP的核心贡献在于它打破了传统的固定类别标签范式,通过对比学习的方式,将图像和文本映射到同一个向量空间中,从而实现跨模态的检索和分类。原创 2024-10-16 20:20:29 · 2915 阅读 · 0 评论 -
Transformer的预训练模型
Transformer的预训练模型有很多,其中一些在自然语言处理(NLP)和计算机视觉等领域取得了巨大成功。原创 2024-10-16 19:39:31 · 1283 阅读 · 0 评论 -
Midjourney参数详解
Midjourney的参数是添加到提示词中的选项,用于更改图像的生成方式。这些参数可以调整图像的宽高比、风格、质量、随机性等多个方面。原创 2024-09-24 15:09:03 · 1397 阅读 · 0 评论 -
Transformer 架构详解
Transformer 架构是由 Ashish Vaswani 和他的同事们在 2017 年的论文《Attention is All You Need》中首次提出的。它在自然语言处理(NLP)和其他序列建模任务中取得了前所未有的成功。Transformer 模型完全基于自注意力机制,摒弃了循环和卷积操作,这使得它在处理长序列数据时具有显著优势,并且能够实现并行化计算。原创 2024-09-19 19:02:49 · 1214 阅读 · 0 评论 -
CNN卷积神经网络详解
卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,专门用于处理具有网格结构的数据,如图像、视频等。它在计算机视觉、自然语言处理、语音识别等领域有着广泛的应用。原创 2024-09-18 15:03:23 · 2089 阅读 · 0 评论 -
卷积核详解
卷积核(Convolution Kernel),简单来说,就是在进行图像处理或信号处理时,用来“扫描”或“滑动”过原始数据(比如一张图片)的一个小型矩阵。这个矩阵里面包含了一些数值,这些数值在滑动过程中与原始数据对应位置的数值进行特定的数学运算(通常是乘法后求和),从而生成新的数据或特征。原创 2024-09-18 12:10:57 · 990 阅读 · 0 评论 -
timm图像模型库
timm(PyTorch Image Models)是一个集合了多种SOTA(State of the Art)计算机视觉模型、层、实用工具、优化器、调度器、数据加载器、增强策略以及训练/验证脚本的库,旨在简化模型的选择、创建和微调过程。它支持超过700种预训练模型,并且可以轻松地进行加载和使用。原创 2024-09-14 11:15:30 · 1524 阅读 · 0 评论 -
RepLKNet架构详解
RepLKNet 通过引入大卷积核和重参数化技术,有效地结合了 Vision Transformer 的全局建模能力和 CNN 的高效计算优势。其设计创新在于既保持了卷积网络的结构简单性和计算效率,又通过大卷积核弥补了 CNN 在处理长距离依赖信息时的不足。因此,RepLKNet 是一种强大的模型架构,适用于各类计算机视觉任务,在大规模数据集上的表现尤其出色。原创 2024-09-12 15:48:58 · 1083 阅读 · 0 评论 -
ConvNeXt架构详解
ConvNeXt 是一种现代化的卷积神经网络架构,结合了 ResNet 的经典设计和 Vision Transformer 的创新元素。通过一系列巧妙的调整和优化,ConvNeXt 证明了卷积网络在处理视觉任务时依然可以与 Transformer 相媲美,甚至在某些场景下有更好的计算效率和性能表现。原创 2024-09-12 15:38:23 · 2146 阅读 · 0 评论 -
ComfyUI使用Flux模型
ComfyUI是一个强大的用户界面,支持多种图像处理和生成模型,而Flux是一系列由Black Forest Labs开发的扩散模型。原创 2024-08-31 18:16:13 · 2801 阅读 · 0 评论 -
Python使用OpenCV识别图片人脸
在Python中,识别图片中的人脸并获取人脸区域的坐标,通常可以使用OpenCV库结合Haar特征分类器来实现。原创 2024-08-30 12:05:36 · 1051 阅读 · 0 评论 -
Deep-Live-Cam实时AI换脸
Deep-Live-Cam 是一个基于AI技术的实时人脸替换和动画工具,该项目结合了深度学习算法,能够实时地将一个选定的人脸替换到目标视频或图片中,支持多种平台和执行环境。原创 2024-08-13 19:52:30 · 2884 阅读 · 3 评论 -
AIGC生成图像检测
丰富纹理区域中的像素表现出比贫乏纹理区域中的像素更显著的波动。他们采用ResNet-50作为分类器,并观察到包括JPEG压缩和高斯模糊在内的数据增强可以提高检测器的泛化能力,这意味着检测器可以很好地泛化到未见过的架构、数据集和训练方法。LNP观察到真实图像的噪声模式在频率域中表现出相似的特征,而生成图像的噪声模式则截然不同。LGrad提取了一个训练良好的图像分类器获得的梯度图,作为GAN生成图像的指纹。基于这一观察,他们旨在通过将全局纹理提取融入常见的ResNet结构中,来提高检测器的泛化能力和鲁棒性。原创 2024-08-08 10:46:18 · 1871 阅读 · 0 评论 -
YOLOv8目标检测算法详解
YOLOv8是Ultralytics公司最新推出的Yolo系列目标检测算法,建立在Yolo系列历史版本的基础上,并引入了新的功能和改进点,以进一步提升性能和灵活性。它是实现目标检测、图像分割、姿态估计等任务的最佳选择之一。YOLOv8是一种基于深度学习的目标检测算法,其核心思想是将目标检测问题转化为一个回归问题,通过一次前向传播过程即可完成目标的位置和类别预测。它继承了YOLO系列算法的优点,如速度快、实时性好等,并在准确性和泛化能力上进行了进一步的提升。原创 2024-06-27 13:09:08 · 4427 阅读 · 1 评论 -
使用bat批处理检查venv环境和python依赖库
以下是一个批处理脚本的示例,用于检查是否存在名为 venv 的 Python 虚拟环境,如果不存在,则创建一个新的 venv 环境原创 2024-06-17 13:45:42 · 468 阅读 · 0 评论 -
ToonCrafter自动生成动画中间帧
ToonCrafter仅需两张关键帧——起始与结束画面,便能巧妙地绘制出两者之间的流畅过渡,创造出一系列生动的动画帧。原创 2024-06-17 13:22:03 · 631 阅读 · 0 评论 -
Stable Diffusion WebUI 使用ControlNet:IP-Adapter保持生图的角色一致性
IP-Adapter-FaceID可以在保持人脸一致的条件下生成各种风格的图像。原创 2024-06-14 16:04:55 · 2412 阅读 · 0 评论 -
Stable-Diffusion-WebUI 常用提示词插件
SixGod提示词插件可以帮助用户快速生成逼真、有创意的图像。其中包含,清空正向提示词”和“清空负向提示词、提示词起手式包含人物、服饰、人物发型等各个维度的提示词、一键清除正面提示词与负面提示词、随机灵感关键词、提示词分类组合随机、动态随机语法等。原创 2024-06-14 14:21:39 · 2031 阅读 · 0 评论 -
使用GPT/文心实现诗词作画
在教育领域中,古诗词一直是培养学生文化素养和审美能力的重要载体。选择合适的古诗词进行学习和欣赏,不仅能够增强他们的语言表达能力,还能促进他们对中国传统文化的理解和热爱。本文将结合AI技术,将古诗词转换为图画。原创 2024-06-13 15:23:36 · 892 阅读 · 0 评论 -
Text Embedding(文本嵌入)模型介绍
Text Embedding是自然语言处理(NLP)中的一个核心技术,它指的是将文本(如单词、短语、句子或段落)转换为固定大小的实数向量,这些向量可以捕获文本中的语义信息,使得语义上相似的文本在嵌入空间中具有相似的向量表示。这种转换使得文本数据能够被计算机理解和处理,从而可以在各种NLP任务中使用。原创 2024-05-27 11:03:26 · 4584 阅读 · 0 评论 -
Stable Diffusion WebUI 更换图片背景
Rembg是一个用于去除图像背景的开源工具,能够智能地识别和分离图片中的主体与背景,生成高质量的抠图效果。原创 2024-05-19 23:45:02 · 824 阅读 · 0 评论 -
Stable Diffusion WebUI使用inpaint anything插件实现图片局部重绘
Inpaint Anything是一个强大的图像处理工具,它结合了SAM(Segment Anything Model)、图像修补模型(如LaMa)和AIGC模型(如Stable Diffusion)等先进技术,以实现图像中物体的移除、内容的填补以及场景的替换。无论是对图像中的任何元素进行编辑,还是对图像整体进行场景转换,Inpaint Anything都能胜任。原创 2024-05-17 00:32:44 · 2537 阅读 · 0 评论 -
使用AudioCraft(MusicGen)生成音乐
模型将根据提供的描述生成一段简短的音乐,一次可生成长达30秒的音频。模型是根据库存音乐目录中的描述进行训练的,最有效的描述应该包括现有乐器的一些细节,以及一些预期的用例(例如,添加“perfect for a commercial”可能会有所帮助)。facebook/musicgen-melody:以文本和旋律为条件的音乐生成模型,也可以只使用文本。facebook/musicken-small:以文本为条件的300M转换器解码器。原创 2024-05-10 15:56:17 · 1236 阅读 · 0 评论 -
Stable Diffusion WebUI 使用ControlNet:IP-Adapter实现图片风格迁移
IP-Adapter 全称是 Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models(文本到图像扩散模型的文本兼容图像提示适配器),是腾讯研究院出品的一个新的ControlNet模型,旨在使预训练的文本到图像扩散模型能够生成具有图像提示的图像。IP-Adapter是一种有效的轻量级适配器,用于实现预训练文本到图像扩散模型的图像提示能力。原创 2024-04-27 18:15:24 · 2101 阅读 · 0 评论 -
Stable Diffusion常用提示词(Prompt)
Stable Diffusion常用提示词原创 2024-04-27 11:47:27 · 6383 阅读 · 0 评论 -
Stable Diffusion Prompt用法
Stable Diffusion可以根据你输入的提示词(prompt)来绘制出想象中的画面。原创 2023-03-11 19:23:26 · 14919 阅读 · 0 评论 -
Stable Diffusion 常用放大算法详解
常规用法:先在低分辨率下反复画图,确定一个比较满意的图像时,再借助固定随机种子,来进行高清修复,得到分辨率更高的图像。高清修复有时候会修改图像,增加不必要的元素,可以通过调整重绘幅度进行抑制。如果只是想放大图片,可以设置为(0.3-0.5),如果想要AI自由发挥,可以设置更高的重绘幅度。原创 2024-04-26 16:30:41 · 7000 阅读 · 1 评论 -
Topaz Video AI参数详解
Topaz Video AI是一款由Topaz Labs开发的人工智能视频处理软件。这款软件利用先进的深度学习技术,为视频处理提供了多种高效、智能的工具,帮助用户快速、轻松地完成视频处理任务。原创 2024-04-26 00:40:18 · 10395 阅读 · 0 评论 -
使用IOPaint实现图片擦除路人
IOPaint 是一个免费的开源的 inpainting/outpainting 工具,由最先进的 AI 模型提供支持。原创 2024-04-24 21:09:18 · 1673 阅读 · 1 评论