
人工智能&深度学习&机器学习
文章平均质量分 85
本专栏主要发布有关人工智能和深度学习相关的文章
人工智能(Artificial Intelligence),英文缩写为AI。 [21]是新一轮科技革命和产业变革的重要驱动力量, [23]是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
技术瘾君子1573
常言道:授人以鱼不如授人以渔。经过长时间理论与实践的结合,旨在记录分享实用技术经验,从硬件到操作系统再到具体应用,涉及服务器、存储、网络、操作系统、云计算、大数据、容器、人工智能、HPC等众多领域的知识分享,您的关注就是我最大的动力,加油!
展开
-
DeepSeek-Coder_pytorch代码生成方向大模型&支持87种编程语言
DeepSeek Coder系列包括1B、5.7B、6.7B及33B多个版本,涵盖广泛的代码和自然语言处理任务。原创 2025-04-21 15:54:03 · 846 阅读 · 0 评论 -
QwQ-32B_pytorch对话问答模型
参数精简,性能不减,以1/21小参数媲美DeepSeek R1 6710亿参数的性能,成本仅1/10。原创 2025-03-14 14:29:53 · 374 阅读 · 0 评论 -
deepseek-janus-pro_pytorch文生图模型
DeepSeek开发的文生图模型原创 2025-02-06 09:28:06 · 774 阅读 · 0 评论 -
deepseek-r1-distill_vllm高性能对话问答蒸馏模型
高性能蒸馏模型原创 2025-02-06 09:26:42 · 632 阅读 · 0 评论 -
xdecoder_mmcv图像分割模型
X-Decoder 通过一个统一的解码器结构,将像素级、图像级和语言级的任务集成在同一语义空间中,实现了不同视觉和视觉-语言任务的高效处理和协同学习。X-Decoder将两种类型的查询作为输入:通用非语义查询和文本输入引导的语义查询,使解码器能够识别各种语言相关的视觉任务,在多项视觉任务性能均有很好的表现。原创 2024-12-17 16:54:39 · 1090 阅读 · 0 评论 -
llama_tgi为llama提供了高性能的推理服务的对话问答模型
LLAMA网络基于 Transformer 架构。提出了各种改进,并用于不同的模型,例如 PaLM。以下是与原始架构的主要区别:预归一化。为了提高训练稳定性,对每个transformer 子层的输入进行归一化,而不是对输出进行归一化。使用 RMSNorm 归一化函数。SwiGLU 激活函数 [PaLM]。使用 SwiGLU 激活函数替换 ReLU 非线性以提高性能。使用 2 /3 4d 的维度而不是 PaLM 中的 4d。旋转嵌入。移除了绝对位置嵌入,而是添加了旋转位置嵌入 (RoPE),在网络的每一原创 2024-12-17 16:53:43 · 1083 阅读 · 0 评论 -
baichuan2_tgi baichuan2提供了高性能的推理服务的对话问答模型
Baichuan整体模型基于标准的Transformer结构,采用了和LLaMA一样的模型设计。其中,Baichuan-7B在结构上采用Rotary Embedding位置编码方案、SwiGLU激活函数、基于RMSNorm的Pre-Normalization。Baichuan-13B使用了ALiBi线性偏置技术,相对于Rotary Embedding计算量更小,对推理性能有显著提升。原创 2024-12-13 09:28:38 · 275 阅读 · 0 评论 -
vita_pytorch 能够处理视频、图像、文本和音频,具备先进的多模态交互体验,无需使用唤醒词或按钮即可被激活的对话问答模型
VITA提取特征的主体部分是Mixtral 8×7B,外加多个分别编码音频、图像、视频的编码器,编码器与Mixtral之间用MLP进行连接。原创 2024-11-26 07:30:00 · 773 阅读 · 0 评论 -
sed_pytorch用于开放词汇语义分割的简单编码器-解码器-SED模型的推理和训练
SED的总体架构,首先使用分层编码器(可学习的)和文本编码器(冻结的)来生成像素级的图像-文本成本图。然后,我们引入了一种渐进融合解码器,将不同的层次编码器特征映射和成本图相结合。渐进融合解码器堆栈具有聚合模块(FAM)和跳跃层融合模块(SFM)。此外,我们在解码器中设计了一个类别早期屏蔽(CER),以在不牺牲性能的情况下加速推理速度。原创 2024-11-26 00:00:00 · 800 阅读 · 0 评论 -
salience_detr_pytorch用层次显著性滤波细化增强检测变换器的推理和训练
显著性DETR采用了高性能的两阶段管道。SlalenceDETR和主流的两阶段DETR类方法之间的主要架构区别在于变压器编码器和查询细化。给定来自主干的多尺度特征,编码器仅更新基于显著性引导监督的层次查询过滤选择的查询。通过查询细化模块,可以缓解查询之间的语义失调。原创 2024-11-25 07:30:00 · 686 阅读 · 0 评论 -
u-kan_pytorch基于KAN设计,精度高于Mamba、Transformer构建的Unet模型
KAN已成为MLP的一个有前景的替代方案,U-KAN将新兴算法KAN的优势融入到成熟的U-Net Pipeline 中提升精度,同时增加可解释性。原创 2024-11-22 07:30:00 · 789 阅读 · 0 评论 -
efficientsam_pytorch基于point、box和segment everthing推理的图像分割模型
EfficientSAM模型利用掩码图像预训练(SAMI),该预训练学习从SAM图像编码器重构特征,以进行有效的视觉表示学习。然后采用SAMI预训练的轻量级图像编码器和掩码解码器来构建EfficientSAMs ,并在SA-1B数据集上对模型进行微调以执行分割一切的任务。EfficientSAM-S将SAM的推理时间减少了约20倍,参数大小减少了约20倍,性能下降很小。原创 2024-11-25 00:00:00 · 769 阅读 · 0 评论 -
umt5_pytorch开源免费可商用的预训练多任务语言模型可用于关键词提取, 翻译,摘要等。
umT5:T5 的多语言版本,具备 T5 模型大部分的多功能性,在多语言通用爬虫语料库 mC4 上预训练,覆盖 101 种语言;Encoder-Decoder架构,编码层和解码层都是12层,一共有220M个参数,大概是bert-base 的两倍。原创 2024-11-22 00:00:00 · 1296 阅读 · 0 评论 -
stable_diffusion_ait基于stable diffusion的文生图ait模型
stable_diffusion_ait是基于stable diffusion的ait模型原创 2024-11-21 07:00:00 · 532 阅读 · 0 评论 -
flux.1_diffusers基于Diffusion Transformer的多模态文生图模型
FLUX.1 是一种多模态扩散转换器(MMDiT)文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面具有显着改进的性能。本项目主要针对FLUX.1在DCU平台的推理性能优化,达到DCU平台较快的生成效果。原创 2024-11-21 00:00:00 · 678 阅读 · 0 评论 -
cosyvoice_pytorch多语言、音色和情感控制模型
CosyVoice 的架构包括文本编码器、语音标记器、大型语言模型和条件流匹配模型。它将文本到语音的转换过程视为一个自回归序列生成问题,并通过条件流匹配模型将语音令牌转换为Mel频谱图,最后使用HiFiGAN声码器合成波形。原创 2024-11-20 11:30:00 · 2087 阅读 · 0 评论 -
real-esrgan_pytorch通过使用更实用的退化过程合成训练图像对, 扩展强大的ESRGAN以恢复一般的真实世界LR图像
生成网络: 采用ESRGAN的生成网络,对于x4倍的超分辨,网络完全按照ESRGAN的生成器执行;对x2和x1倍的超分辨,网络先进行pixel-unshuffle(pixel-shuffl的反操作,pixel-shuffle可理解为通过压缩图像通道而对图像尺寸进行放大),以降低图像分辨率为前提,对图像通道数进行扩充,然后将处理后的图像输入网络进行超分辨重建。原创 2024-11-20 00:00:00 · 1381 阅读 · 1 评论 -
rtmdet_mmcv在各种应用场景中实现了最佳参数精度权衡且在实时实例分割和旋转目标检测方面获得了最新的性能
TMDet 将 CSPDarkNet 作为基线,并使用同样构建单元组成的 CSPPAFPN 进行多尺度的特征融合,最后将特征输入给不同的检测头,进行目标检测、实例分割和旋转框检测等任务原创 2024-11-15 11:30:00 · 543 阅读 · 0 评论 -
disc-finllm_pytorch文本分析模型
DISC-FinLLM 是一个专门针对金融场景下为用户提供专业、智能、全面的金融咨询服务的金融领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源。原创 2024-11-19 10:30:00 · 2066 阅读 · 0 评论 -
vary-toy_pytorch多模态OCR大模型
最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。与Vary-toy同时发布的还有更强的视觉词表网络,其不仅能做pdf-level ocr,还能做通用视觉目标检测。Vary-toy在消费级显卡可训练、8G显存的老显卡可运行,依旧支持中英文原创 2024-11-19 06:30:00 · 994 阅读 · 0 评论 -
vary_pytorch多模态OCR大模型
Vary的整体思想很简单,主要分为两个阶段,Vary-tiny和Vary-base:Vary-tiny:设计了一个词汇表网络和一个小型的仅解码器的转换器,通过自回归生成所需的新视觉词汇表。这个词汇表会和OPT-125M模型一起训练。Vary-base:将新的视觉词汇表与原始词汇表(CLIP)合并,扩展了vanilla(原始的)视觉词汇表。联合LLM-7B模型进行训练。原创 2024-11-18 11:30:00 · 1045 阅读 · 0 评论 -
mooer_pytorch一个由摩尔线程开发的、基于大语言模型(Large Language Model,LLM)的语音识别和语音翻译系统
MooER模型是一个由摩尔线程开发的、基于大语言模型(Large Language Model,LLM)的语音识别和语音翻译系统。模型结构如图:原创 2024-11-18 06:30:00 · 1049 阅读 · 0 评论 -
draggan_pytorch通过拖拽编辑生成图像的AIGC模型
DragGAN 模型,是一种革命性交互式图像操作方式,允许用户将图像中的任意点“拖动”到目标位置,以精确控制姿势、形状、表情和布局。原创 2024-11-15 06:30:00 · 459 阅读 · 0 评论 -
linfusion_pytorch高效生成高分辨率图像模型,可实现文生图、图生图等功能
作者将所提出的 Generalized Linear Attention 模块集成到 SD 的架构中,替换原始的 Self-Attention 模块,生成的模型称为 LinFusion。使用知识蒸馏策略,只训练线性注意模块 50K 步,LinFusion 的性能即可与原始 SD 相当甚至更好,同时显著降低了时间和显存占用的复杂度。原创 2024-11-14 06:30:00 · 1011 阅读 · 0 评论 -
inpaint-anything_pytorch通过SAM编辑修复任意物体的AIGC模型
npaint-Anything主要是基于Segment Anything Model(SAM)进行图像的编辑修复,SAM是一种Vision Transformer(ViT)结构的模型。原创 2024-11-14 07:00:00 · 1049 阅读 · 0 评论 -
vision_transformer_jax Google提出的一种图像识别模型,应用了无decoder的纯transformer结构(不依赖CNN)
Google提出的一种图像识别模型,应用了无decoder的纯transformer结构(不依赖CNN)原创 2024-11-13 11:45:00 · 1288 阅读 · 0 评论 -
codellama_pytorch模型是一系列7B、13B、34B和70B模型,使用500B-1T的tokens进行代码生成训练
Codellama模型是一系列7B、13B、34B和70B模型,使用500B-1T的tokens进行训练。原创 2024-11-13 07:00:00 · 1602 阅读 · 0 评论 -
yolo11_pytorch在CPU上提速明显,支持目标检测、实例分割、图像分类、姿态估计
YOLO11与YOLOv8一致提供了五个不同尺度大小的网络,延续了YOLOv10无NMS的训练策略,引入了C3k2和C2PSA两个全新模块。原创 2024-11-12 07:00:00 · 845 阅读 · 0 评论 -
yolo_world_pytorch实时开放词汇目标检测模型
YOLO-World是一种实时开放词汇目标检测系统,它通过视觉-语言建模和大规模数据集上的预训练,增强了YOLO(You Only Look Once)系列检测器的开放词汇检测能力。该模型没有使用在线词汇表,而是提供了一个提示-检测范式,其中用户根据需要生成一系列提示,提示将被编码到离线词汇表中。然后可以将其重新参数化为模型权重,用于部署和进一步加速。原创 2024-11-11 16:00:35 · 1625 阅读 · 0 评论 -
glm-4-voice_pytorch具备情感理解能力能够模拟不同的情绪和语调多模态模型
多模态模型GLM-4-Voice具备情感理解能力,能够模拟不同的情绪和语调,如高兴、悲伤、生气、害怕等,实现情感表达和共鸣,能识别中国各地方言,如粤语、重庆话、北京话等直接输出语音。原创 2024-11-01 13:00:00 · 913 阅读 · 0 评论 -
mini-omni2_pytorch视觉-音频助理&能同时处理视觉、听觉和文本三种多模态对话问答模型
Mini-Omni2是个视觉-音频助理,能同时处理视觉、听觉和文本三种多模态,实时提供端到端的语音对话响应。原创 2024-11-01 07:15:00 · 967 阅读 · 0 评论 -
qwen2.5_pytorch对话问答算法模型
相较于 Qwen2,Qwen2.5 获得了显著更多的知识(MMLU:85+),并在编程能力(HumanEval 85+)和数学能力(MATH 80+)方面有了大幅提升。原创 2024-10-24 00:00:00 · 1737 阅读 · 0 评论 -
qwen2_pytorch对话问答模型
Qwen2 超越了大多数之前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中,与专有模型相比表现出了极具竞争力的性能。原创 2024-10-16 07:00:00 · 938 阅读 · 0 评论 -
open_clip_pytorch多模态图像分类模型
CLIP 模型有两个主要组件,一个文本编码器和一个图像编码器。对于文本编码器,使用了Transformer;对于图像编码器采用了ResNet和Vision Transformer(ViT)原创 2024-10-16 00:00:00 · 1954 阅读 · 1 评论 -
timesfm_jax一种预训练的时序预测基础模型
TimesFM是一种基于区块的decoder-only模型,应用了自注意力机制和传统的位置编码,主要由三个组件组成:输入层、Transformer层和输出层。原创 2024-10-15 07:00:00 · 1169 阅读 · 0 评论 -
deepseek-coder-v2_pytorch代码生成模型
DeepSeek Coder V2系列基于Deepseek-V2改进而来,有16B和236B两个版本。原创 2024-10-15 00:00:00 · 800 阅读 · 0 评论 -
clip_pytorch可用于图像分类或特征表达的图像分类模型
CLIP 模型有两个主要组件,一个文本编码器和一个图像编码器。对于文本编码器,使用了Transformer;对于图像编码器采用了ResNet和Vision Transformer(ViT)。原创 2024-10-12 16:41:53 · 455 阅读 · 0 评论 -
codellama_lmdeploy对话问答模型
Code Llama 是一组预训练和微调的生成文本模型,其规模从 7 亿到 34 亿个参数不等,他支持很多种编程语言,包括 Python, C++, Java, PHP, Typescript (Javascript), C#, Bash 等等。具备代码续写、原创 2024-09-27 06:30:00 · 2110 阅读 · 0 评论 -
sam_pytorch最先进的图像分割模型
SAM是23年4月提出的最先进的图像分割模型原创 2024-09-26 06:30:00 · 2235 阅读 · 0 评论 -
unet_migraphx最常用的一种图像分割模型
unet_migraphx最常用的一种图像分割模型原创 2024-09-26 00:00:00 · 941 阅读 · 0 评论