模型构建
文章平均质量分 85
算家计算
AI算力/大模型服务+VX:18085138124
贵州算家计算服务有限公司以“算家云”为核心,为校、企、研用户提供标准化、可扩展的智算云服务及一站解决的AI计算服务。公司基于贵州数据、算力资源优势,在智算基础设施运营模式上创新,力争为全国供给普惠、经济、绿色智能算力。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Meta第三代“分割一切”模型——SAM 3本地部署教程:首支持文本提示分割,400万概念、30毫秒响应,检测分割追踪一网打尽
SAM 3 是一个统一的基础模型,用于图像和视频中的可提示分割。它可以使用文本或视觉提示(如点、框和掩码)来检测、分割和跟踪对象。与它的前身相比,SAM 3 引入了根据简短的文本短语或示例详尽地分割所有开放词汇概念实例的能力。与先前的工作不同,SAM 3 可以处理更大范围的开放词汇提示。在新上,它达到了人类表现的 75-80%,该基准包含 27 万个独特概念,比现有基准多出 50 多倍。原创 2025-11-25 16:50:20 · 1728 阅读 · 2 评论 -
PaddleOCR-VL-vLLM-OpenAI-API使用教程来了!手把手教你搞定文档解析!
PaddleOCR-VL 是一个基于视觉语言模型的多功能图像识别工具,支持 OCR 文字识别、表格识别、公式识别和图表识别等功能。本文档介绍如何通过 OpenAI 兼容的 API 接口使用该模型。功能验证状态: 所有四种任务类型已通过完整测试,功能稳定可用(测试时间:2025-11-07)原创 2025-11-13 17:52:13 · 1238 阅读 · 0 评论 -
告别繁琐文档处理!PaddleOCR-VL-vLLM-OpenAI-API本地部署教程:精准解析文本/表格/公式
PaddleOCR-VL-vLLM-OpenAI-API 是一款先进、高效的文档解析模型,专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B,这是一种紧凑而强大的视觉语言模型(VLM),它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成,能够实现精准的元素识别。该模型支持 109 种语言,并在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。原创 2025-11-07 17:02:00 · 1878 阅读 · 0 评论 -
视觉-文本压缩框架——Glyph本地部署教程,以视觉压缩重塑长上下文处理范式
Glyph是一个通过视觉文本压缩缩放上下文长度的框架。Glyph 没有扩展基于标记的上下文窗口,而是将长文本序列渲染为图像并使用视觉语言模型 (VLM) 对其进行处理。这种设计将长上下文建模的挑战转化为多模态问题,在保留语义信息的同时大幅降低了计算和内存成本。(上)长上下文任务的两种范式的比较:直接将纯文本输入 LLM 的传统方法,以及提出的基于 VLM 的范式 Glyph,它将文本渲染为紧凑的图像以实现大量的输入标记压缩。原创 2025-11-06 18:34:53 · 519 阅读 · 0 评论 -
PaddleOCR-VL本地部署教程:0.9B参数问鼎全球第一,轻量化模型实现多模态文档解析SOTA
是一个针对文档解析的 SOTA 和资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉语言模型(VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型集成在一起,以实现精确的元素识别。该创新模型高效支持 109 种语言,并在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持最低的资源消耗。原创 2025-10-27 18:37:35 · 1701 阅读 · 0 评论 -
DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式
DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。原创 2025-10-23 18:18:20 · 2905 阅读 · 0 评论 -
SAIL-VL2本地部署教程:2B/8B参数媲美大规模模型,为轻量级设备量身打造的多模态大脑
SAIL-VL2 是由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合推出的一个多模态大模型,它在保持较小参数规模的同时,实现了媲美甚至超越部分大规模模型的性能。SAIL-VL2 框架概述。该架构由一个视觉编码器组成,将视觉输入对齐到 LLM 的表示空间。轻量级适配器进一步将视觉嵌入转换为标记化表示,这些表示与语言嵌入一起进行多模态推理和预测。SAIL-VL2 支持多种 LLM 主干,确保在不同模型配置下的灵活性和可扩展性。原创 2025-10-20 18:16:27 · 1175 阅读 · 0 评论 -
阿里最新开源!轻量级视觉模型Qwen3-VL-4B&8B-Instruct本地部署教程:小参数媲美顶尖模型
Qwen3-VL 是迄今为止 Qwen 系列中最强大的视觉语言模型。这一代产品全面升级:卓越的文本理解和生成、更深层次的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解以及更强大的智能体交互能力。提供从边缘扩展到云的密集和 MoE 架构,并具有 Instruct 和推理增强型思维版本,可实现灵活的按需部署。更多信息请参考。原创 2025-10-17 17:00:18 · 2638 阅读 · 0 评论 -
Wan2.2-Animate-14B 使用指南:从图片到动画的完整教程
Load chekpoint:基础大模型加载器,用于加载模型。Load CLIP:作用是将输入的内容与生成式大模型结合,从而引导图片生成。Load ControNet Model:用于加载 contronet 各功能的节点KSampler:K 采样器。VAE :变分自编码器,类似滤镜。现在很多模型都自带 VAE,VAE 分为 Decode(解码)和 Encode(编码)。其中 编码器将输入数据压缩成一个潜在向量,解码器则根据这个潜在向量重构原始输入。原创 2025-10-11 17:57:45 · 2058 阅读 · 0 评论 -
化学专业大型语言模型——SparkChemistry-X1-13B本地部署教程:洞察分子特性,精准预测化学行为
iFLYTEK Spark Chemistry-X1-13B 是由 iFLYTEK 团队开发的化学专业大型语言模型。该模型在多种化学任务数据集上对 iFLYTEK Spark-X1 基础模型进行了微调,展示了在解决复杂化学问题方面的卓越能力,同时保持了强大的通用能力。该模型在与化学相关的基准测试中表现出色,并且在大多数评估指标上明显优于领先的通用模型。原创 2025-09-29 16:49:35 · 718 阅读 · 0 评论 -
阿里最新开源Wan2.2-Animate-14B 本地部署教程:统一双模态框架,MoE架构赋能电影级角色动画与替换
阿里巴巴旗下 Wan 团队在9月19日正式开源 Wan2.2-Animate-14B(简称 Wan-Animate)模型,这一高保真角色动画生成框架迅速成为 AI 视频领域的焦点。该模型以单模型架构同时解决“角色动画生成”和“角色替换”两大痛点,能够将静态图片中的人物或类人角色,依照一段参考视频的动作和表情,生成一段流畅自然的动画视频。原创 2025-09-26 18:00:46 · 3536 阅读 · 0 评论 -
PDF解析神器——MinerU本地部署教程:一键去除页眉页脚,精准提取公式表格,支持84种语言,让文档转换更简单!
MinerU 是由上海人工智能实验室(OpenDataLab)团队开发的一款,专注于将复杂的PDF文档、网页和电子书内容,高效、精准地提取并转换为机器可读的结构化格式(如Markdown、JSON等),可以很方便地抽取为任意格式。原创 2025-09-19 14:53:54 · 1926 阅读 · 0 评论 -
模糊高清修复真王炸!ComfyUI-SeedVR2-Kontext(画质修复+P图)本地部署教程
SeedVR2_comfyUI 是由字节跳动 Seed 实验室与南洋理工大学 S-Lab 联合开源的,专为 ComfyUI 用户开发的插件版本,官方项目名为。它主打,在图像超分上表现尤其亮眼,被多位实测者称为“目前模糊图像修复最强模型“。SeedVR2 在图像超分任务中表现突出,尤其擅长恢复模糊图像的细节,被称为“模糊高清修复真王炸”。特别的,也适合用于文字密集图像(如截图、扫描文档、老照片字幕)修复。模型通过对抗训练 + 特征匹配损失提升细节真实感,理论上对文字边缘锐化也有帮助。原创 2025-09-18 16:43:19 · 2399 阅读 · 0 评论 -
7B参数拿下30个世界第一!Hunyuan-MT-7B本地部署教程:腾讯混元开源业界首个翻译集成模型
Hunyuan-MT-7B 是腾讯混元团队发布的轻量级翻译模型,参数量仅 70 亿,支持 33 个语种及 5 种民汉语言/方言互译。在国际计算语言学协会(ACL)WMT2025 比赛中拿下 31 个语种比赛中的 30 个第 1 名,表现卓越。模型能精准理解网络用语、古诗、社交对话等,结合语境进行意译,提出了覆盖预训练到集成强化全链条的训练范式。推理速度快,经过腾讯自研 AngelSlim 压缩工具处理后,性能进一步提升 30%。可在多样化硬件环境中部署,成本低。原创 2025-09-17 18:10:34 · 1743 阅读 · 0 评论 -
AI配音革命!B站最新开源IndexTTS2本地部署教程:精准对口型,情感随心换
现有的自回归大规模文本转语音(TTS)模型在语音自然性方面具有优势,但其逐个标记的生成机制使得合成语音的持续时间难以精确控制。这在需要严格视听同步的应用(例如视频配音)中成为一个重大限制。基于此,哔哩哔哩(B站)Index团队近日开源了一款,该方法提出了一种新颖、通用、自回归的语音时长控制模型友好方法。它在和方面取得了关键性突破,是零样本TTS技术迈向该方法支持两种生成模式:一种明确指定生成的标记数量以精确控制语音持续时间;原创 2025-09-16 17:10:48 · 2284 阅读 · 0 评论 -
阿里深夜开源Qwen3-Next,混合注意力机制与极致稀疏MoE实现90%训练成本降低
阿里通义团队开源Qwen3-Next模型,采用创新MoE架构实现训练成本暴降90%,长文本推理速度提升10倍,突破AI算力成本瓶颈。原创 2025-09-12 18:35:33 · 1168 阅读 · 0 评论 -
一张图+一段音频=电影级视频!阿里Wan2.2-S2V-14B本地部署教程:实现丝滑口型同步
Wan2.2-S2V-14B 是阿里巴巴通义万相团队在8月底开源的一款。为了解决实现电影级角色动画这一长期挑战,团队提出了一种基于 Wan 的音频驱动模型,称之为 Wan-S2V。与现有方法相比,该模型在电影情境下显著增强了表现力和保真度。它仅需和,就能生成面部表情自然、口型精准同步、肢体动作流畅的,单次生成时长甚至可达。原创 2025-09-11 18:04:54 · 2233 阅读 · 0 评论 -
面壁智能开源多模态大模型——MiniCPM-V 4.5本地部署教程:8B参数开启多模态“高刷”时代!
MiniCPM-V 4.5 是 OpenBMB 最新 8B 多模态大模型,基于 Qwen3-8B + SigLIP2-400M,在 OpenCompass 平均 77.0 分,超越 GPT-4o-latest 与 Qwen2.5-VL 72B;独创 3D 重采样器实现 96× 视频令牌压缩,10 FPS 长视频理解不增成本;可控混合快速/深度思维一键切换;180 万像素 OCR 与 PDF 解析领先 GPT-4o,30+ 语言可信输出;原创 2025-09-10 18:09:32 · 2061 阅读 · 0 评论 -
ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!
MultiTalk 是由联合研发的一款。它能够根据多路音频输入、参考图像和文本提示,生成包含且的视频内容。简单来说,它能让静态图片中的人物“开口说话”,并且还能进行“对话”。其特点为:💬 逼真的对话 - 支持单人和多人生成👥 交互式角色控制 - 通过提示指导虚拟人🎤 泛化表演 - 支持卡通人物和歌唱的生成📺 分辨率灵活性:任意纵横比下的 480p 和 720p 输出⏱️ 长视频生成:支持长达 15 秒的视频生成。原创 2025-09-09 15:59:46 · 771 阅读 · 0 评论 -
一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成
EchoMimicV3 是蚂蚁集团在8月底开源的一款凭借的紧凑型视频扩散模型(CVDM),实现了在多种输入条件下快速生成高质量、强泛化能力的数字人动画,为数字人动画技术带来了重要突破。原创 2025-09-08 16:57:23 · 1342 阅读 · 7 评论 -
腾讯最新开源HunyuanVideo-Foley本地部署教程:端到端TV2A框架,REPA策略+MMDiT架构,重新定义视频音效新SOTA!
HunyuanVideo-Foley 是腾讯混元团队在2025年8月底开源的一款。它旨在解决AI生成视频“有画无声”的痛点,通过输入视频和文本描述,就能自动生成的同步音效,显著提升视频的沉浸感。它是专为视频内容创作者设计的专业级 AI 工具,广泛适用于短视频创作、电影制作、广告创意、游戏开发等多种场景。原创 2025-09-05 19:33:58 · 1137 阅读 · 0 评论 -
新一代实时检测工具——YOLOv13本地部署教程,复杂场景,一目了然!
—新一代实时检测器,拥有尖端的性能和效率。原创 2025-09-04 18:03:31 · 1555 阅读 · 0 评论 -
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,中文渲染能力刷新SOTA
Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型,也是目前在复杂文本(尤其是中文)渲染方面表现最好的开源文生图大模型之一。这是一个 20B MMDiT 图像基础模型,在复杂文本渲染和精确图像编辑方面取得了重大进步。性能表现上,在多个公开基准上的对 Qwen-Image 的全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。原创 2025-09-03 17:35:56 · 3167 阅读 · 1 评论 -
70亿参数媲美闭源巨头!Seed-X-PPO-7B本地部署教程:触手可及的顶级翻译模型
是强大的开源多语言翻译语言模型,表现出业界领先的翻译能力,它以其,实现了支持双向互译的强大能力,并且在多项测试中其翻译性能注:Seed-X-PPO 模型是Seed-X-7B模型的强化学习模型,其翻译性能优于 Seed-X-7B。原创 2025-09-02 18:31:37 · 848 阅读 · 0 评论 -
多模态融合新纪元:Ovis2.5 本地部署教程,实现文本、图像与代码的深度协同推理
调用vllm 启动的模型服务接口实现:通过openai 接口调用vllm 服务,实现图像和视频输入(以关键帧的形式);输入视频时对于关键帧的调整,默认是自动根据视频时长调整关键帧数;模型连接状态展示。import osimport re# --- OpenAI客户端配置 ---openai_api_base = "http://localhost:8000/v1" # 修改为你的API服务器地址# 这应指向包含你的 SVG 文件的目录。# --- 模型连接状态检查 ---原创 2025-08-28 18:37:46 · 1578 阅读 · 0 评论 -
“下一代”图像模型——ComfyUI-Flux-Krea本地部署教程,体验划时代的图像质量
FLUX.1-Krea-dev是一个具有 120 亿参数的修正流变换器,能够根据文本描述生成图像。其主要。原创 2025-08-27 17:06:48 · 1430 阅读 · 0 评论 -
360智脑开源优化排序模型——360Zhinao-1.8B-Reranking本地部署教程,提升检索质量,减少大模型“幻觉”现象
360Zhinao-1.8B-Reranking 模型以自主研发的 360Zhinao_1.8B_base 模型为基础,其中自主研发的单向生成模型 360Zhinao_1.8B_reranking 平均得分为 70.13,目前位居总体第一及开源模型第一,为生成模型承担判别性任务开辟了新的可能性。包含四个子任务,分别是判断不同领域用户问答的相似度,以 MAP(Mean-average-precision)作为评价指标。原创 2025-08-26 14:51:42 · 751 阅读 · 0 评论 -
使用指南 | Coze Studio 一站式AI智能体开发平台:低代码+多模型+RAG,快速打造你的专业级 AI Agent!
创建智能体后,你会直接进入智能体编排页面。在左侧人设与回复逻辑面板中描述智能体的身份和任务。在中间技能面板为智能体配置各种扩展能力。在右侧预览与调试面板中,实时调试智能体。应用创建成功后,你会直接进入到应用的集成开发环境 (IDE)。原创 2025-08-25 15:52:38 · 1953 阅读 · 0 评论 -
一句话,AI帮你P图!Qwen-Image-Edit本地部署教程:能转能改能加字
Qwen-Image-Edit基于 20B Qwen-Image 模型,成功地将 Qwen-Image 独特的文本渲染能力扩展到了图像编辑任务中,实现了精确的文本编辑。此外,Qwen-Image-Edit 同时将输入图像馈送到 Qwen2.5-VL(用于视觉语义控制)和 VAE 编码器(用于视觉外观控制),从而在语义和外观编辑方面都具备了能力。原创 2025-08-24 15:40:26 · 2229 阅读 · 0 评论 -
3秒搞定产品换装换背景!【ComfyUI-万物迁移工作流】本地部署教程:基于FLUX.1 Kontext上下文感知图像编辑
本工作流使用FLUX.1 Kontext智能地将一张图像中的物体迁移至另一张目标场景图中,并保持原物特征与目标场景的和谐融合。原创 2025-08-20 14:29:13 · 1068 阅读 · 0 评论 -
32K上下文开源语音理解、40分钟深度交互——Voxtral-Small-24B-2507本地部署教程
Voxtral-Small-24B-2507 是一款由 Mistral 团队发布的大规模多模态语言模型,具备强大的自然语言理解与生成能力,同时支持音频输入,适用于语音问答、语音识别、TTS 评估、音频对话等多种音频语言任务。该模型拥有 240 亿参数(24B),采用精心设计的小型架构(Small)在保持高效推理性能的同时,实现了卓越的多模态理解能力。原创 2025-08-19 17:19:51 · 1190 阅读 · 0 评论 -
一行命令,玩转所有主流音视频格式!一站式音视频处理工具——FFmpeg本地部署教程
视频,并能将其转化为流的开源计算机。采用或许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库 libavcodec,为了保证高和编解码质量,libavcodec 里很多 code 都是从头开发的。原创 2025-08-18 17:53:36 · 1042 阅读 · 0 评论 -
130亿参数开源之巅!HunyuanVideo本地部署教程:导演级运镜 × 物理级流畅
HunyuanVideo 是腾讯推出的一款开源视频生成基础模型,拥有超过 130 亿个参数,是当前规模最大的开源视频生成模型。它在视频生成方面表现出与领先的闭源模型相当甚至优于领先闭源模型的性能。HunyuanVideo 具有一个全面的框架,集成了多项关键贡献,包括数据管理、图像-视频联合模型训练以及旨在促进大规模模型训练和推理的高效基础设施。团队进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动多样性、文本-视频对齐和生成稳定性。原创 2025-08-15 17:27:52 · 1252 阅读 · 1 评论 -
开源即用,3 行代码合成自然语音——OuteTTS 本地部署教程,一键接入全场景语音能力
是基于。原创 2025-08-14 17:43:51 · 1091 阅读 · 0 评论 -
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,超强中文渲染能力刷新SOTA!
Qwen-Image 是阿里巴巴通义千问团队于 2025 年 8 月开源的首个图像生成基础模型,也是目前在复杂文本(尤其是中文)渲染方面表现最好的开源文生图大模型之一。这是一个 20B MMDiT 图像基础模型,在和方面取得了重大进步。性能表现上,在多个公开基准上的对 Qwen-Image 的全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。原创 2025-08-13 17:40:21 · 2963 阅读 · 0 评论 -
OpenAI 全新开源模型 GPT-OSS-20B本地部署教程:16GB显存跑透128K上下文
8 月 5 日,OpenAI 重磅发布了自 GPT-2 以来的首批开源权重语言模型 gpt-oss-120b 和 gpt-oss-20b,标志着 OpenAI 在开源领域迈出了重要一步,为开发者和企业带来了全新的机遇。gpt-oss-20b 专为资源受限环境设计,总参数为 210 亿,每个词元有 36 亿个活跃参数。原创 2025-08-12 18:36:15 · 1663 阅读 · 7 评论 -
5B 参数,消费级显卡可部署:Wan2.2-TI2V-5B 本地部署教程,9分钟跑出电影级大片!
Wan2.2-TI2V-5B 是阿里巴巴通义万相(Tongyi Wanxiang)团队于 2025 年 7 月开源的一款轻量级统一视频生成模型,属于 Wan2.2 系列中的核心成员。它以高效部署和多功能生成为特点,显著降低了电影级视频制作的技术门槛。原创 2025-08-11 17:02:44 · 6948 阅读 · 1 评论 -
Wan2.1-14B-T2V-FusionX-VACE本地部署教程:融合前沿技术,轻松掌握逼真物理模拟!
本次合并模型整合了的作用域(scopes)与的模型架构。lum3onE4M3FNE5M2(根据个人网络环境,gif可能加载失败)原创 2025-08-08 17:06:24 · 1835 阅读 · 2 评论 -
拖拽即用·10秒生成矢量艺术字,多种字体风格自由切换——Calligrapher 2025本地部署教程
Calligrapher 是蚂蚁集团与香港科技大学的研究团队共同开发的一个创新的基于扩散模型的框架,主要用于数字书法和设计应用中的文本图像定制与风格转换。Calligrapher可以提供个性化的文本图像定制,它允许用户使用各种风格化的图像和文本提示执行自定义。目前模型支持英文的修改,同时支持使用算家云青春版A100免部署直接调用。模型特点风格复现精准:能够准确还原复杂字体风格的细节,如笔画粗细、弯曲程度、装饰性元素等,实现字符级别的精确排布,提升视觉一致性。适应性强、泛化能力好。原创 2025-08-07 14:35:20 · 1252 阅读 · 1 评论 -
全新升级!Nexus-Gen V2本地部署教程:图像理解能力媲美GPT-4o
是一个统一的模型,它结合了大语言模型的语言推理能力和扩散模型的图像合成能力。提出了一种统一的图像嵌入空间来建模图像理解、生成和编辑任务。为了在多个任务上进行联合优化,整理了一个包含 2630 万个样本的大规模数据集,并使用多阶段策略训练 Nexus-Gen,包括自回归模型的多任务预训练以及生成和编辑解码器的条件适应。Nexus-Gen 的定性结果:限制:请注意,Nexus-Gen 是在有限的文本到图像数据上训练的,可能对文本提示不够鲁棒。原创 2025-07-31 18:56:57 · 1429 阅读 · 0 评论
分享