- 博客(219)
- 收藏
- 关注

原创 Hugging Face模型下载:国内如何高效应对?
为研究人员和开发者提供的众多预训练模型和相关工具,为NLP的研究与应用创造了无数可能性。然而由于某些原因,国内的开发者访问Hugging Face官方站点或下载模型时遭遇了困难。总而言之,AI快站为国内的AI从业者打开了一扇窗,为我们提供了一个可能的解决方案。如果你也遭遇了Hugging Face模型下载的困境,这或许是一个值得尝试的选项。在探索的过程中,我偶然发现了一个名为🔗 AI快站(aifasthub.com) 的国内站点,它声称提供Hugging Face模型的镜像加速服务。
2023-10-25 15:48:37
937
原创 秒级生成、细节拉满!探索阿里巴巴 LHM 开源模型,人人都是 3D 建模师
LHM 以其惊人的速度、出色的细节还原能力和易用性,真正意义上革新了 3D 数字人的创建方式。它不仅是一个强大的技术工具,更是一个激发创意的平台,让“人人都是 3D 建模师”的愿景触手可及。
2025-04-03 03:00:00
757
原创 不止中英双语!港科大 LLaSA 模型让 AI 语音带上喜怒哀乐,15秒克隆你的声音!
港科大 LLaSA 模型无疑是 TTS 领域的一个重要里程碑。它不仅在中英双语合成上达到了极高水准,更在情感表达和快速语音克隆方面取得了显著突破,极大地提升了合成语音的自然度和个性化程度。
2025-04-02 01:30:00
543
原创 字节跳动 InfiniteYou 开源:1-4 张图打造你的高清数字分身
InfiniteYou 是一款先进的个性化图像生成 (Personalized Image Generation) 模型,专注于高保真度的人物身份保持 (High-Fidelity Identity Preservation)。简单来说,它的核心任务是:给定极少量(1-4 张)包含目标人物的人脸参考图像,以及一个描述期望场景、姿态或风格的文本提示 (Text Prompt),生成一张全新的图像。1. 身份高度一致: 生成的人物必须看起来就是参考图像中的那个人,保留其独特的面部特征和细节。
2025-04-01 07:00:00
716
原创 字节跳动 MegaTTS3 开源:0.45B 参数实现高质量中英双语 TTS 与语音克隆
MegaTTS3 是字节跳动最新研发并开源的新一代文本转语音模型。它的核心目标是生成高度自然、富有情感并且与目标说话人音色高度相似的语音。与许多大型模型不同,MegaTTS3 在追求高质量的同时,也注重模型的效率和轻量化。高质量语音合成: 旨在生成清晰、自然、韵律丰富的语音。中英双语支持: 无缝支持中文和英文的文本输入,甚至能在同一段语音中实现自然的代码切换(Code-Switching)。高质量语音克隆: 能够学习并模仿目标说话人的独特音色,实现个性化语音合成。
2025-03-31 02:15:00
1383
1
原创 开源3D生成新标杆:TripoSG如何实现“秒级”高精度三维建模?
TripoSR 是一款先进的 图像到 3D (Image-to-3D) 模型,它的核心使命是:从单一 2D 图像快速、高效地生成高质量的带纹理 3D 网格模型。它由知名的 AI 公司 Stability AI 和 3D 建模平台 Tripo AI 合作开发并完全开源,旨在降低 3D 内容创作的门槛,让更多人能够轻松将 2D 创意转化为 3D 实体。极速生成: 核心卖点,能在极短时间内完成 3D 重建。单图输入: 摆脱了对多视角、深度图等复杂输入的依赖。
2025-03-30 04:00:00
629
原创 双卡 RTX 5090 深度体验:AI 推理框架选择与性能限制实测
本次双 RTX 5090 的深度体验为我们带来了不少有价值的信息。硬件本身性能强大,双卡并行潜力巨大,但务必重视散热方案和电源配置,以确保稳定运行。在推理框架选择上,Ollama 是当前最方便、开箱即用的选择,适合快速上手和实验。需要特别注意的是,像 SGLang 和 vLLM 这类广泛用于高并发、低延迟生产环境的推理框架,目前对 RTX 5090 的官方支持存在明显滞后。SGLang 因 CUDA 版本限制暂不可用,而 vLLM 需要特定环境下的手动编译,且稳定性有待验证。
2025-03-29 19:50:35
1293
原创 开源金融推理新标杆!Fin-R1以7B参数逼近DeepSeek-R1满血版,单卡4090即可部署
Fin-R1 (Finance Reasoning Large Language Model) 并非通用型大模型,而是专为金融领域设计的推理(Reasoning)大模型,属于 R1 类模型。数据碎片化与噪音: 金融数据来源多样,格式不一,噪音多,难以有效利用。推理逻辑不可控: 传统模型像个“黑箱”,难以理解其决策过程,这在需要高可靠性的金融领域是致命的。业务泛化能力弱: 模型往往在一个任务上训练好,换个场景就“水土不服”。
2025-03-27 19:59:21
774
原创 Step-Video-T2V技术深度解析:300亿参数模型实现8秒204帧视频的超清生成
从深度压缩Video-VAE到3D全注意力DiT,再到视频直接偏好优化技术,Step-Video-T2V通过多项核心技术创新,实现了300亿参数模型在8秒204帧视频生成任务中的卓越表现。借助这一模型,视频内容创作者可以大幅降低创作门槛,轻松生成电影级视频效果。我们期待更多开源力量的涌现,共同推动视频生成技术的未来发展!
2025-03-25 06:45:00
721
原创 开源视觉语言模型MiniMax-VL-01:动态分辨率+4M超长文本,性能比肩GPT-4o
在人工智能领域,构建能够像人类一样理解、思考和行动的智能体(AI Agent)一直是研究人员的终极目标之一。而实现这一目标的关键在于模型是否具备足够强大的感知能力、记忆能力和推理能力。近期,国内人工智能公司MiniMax重磅开源了其最新的视觉语言大模型 MiniMax-VL-01,以高达 400万 tokens的超长上下文窗口和顶尖的多模态能力,为AI Agent的未来发展注入了强大的动力。
2025-03-24 18:40:27
870
原创 多模态SVG生成新标杆:StarVector从图像文本生成高精度SVG的AI模型
总而言之,StarVector 作为一款开源的 AI 模型,在图像到 SVG 和文本到 SVG 的生成方面均展现出最先进的性能。它采用创新的代码生成方法,能够生成高质量、可伸缩的矢量图形。凭借其庞大且多样化的训练数据集,StarVector 展现出了强大的性能。更重要的是,作为一款开源模型,它在 Hugging Face 上的可访问性将极大地促进社区的发展和应用。
2025-03-23 00:00:00
1170
原创 仅凭视频输入,30秒生成物理正确3D布局!群核科技开源空间理解模型SpatialLM
SpatialLM作为一款开源空间智能模型,具备处理多源三维数据并生成结构化场景理解结果的能力,在具身智能等领域具有广阔前景]。其开源特性将促进社区的共同发展,加速空间智能技术的创新和应用。
2025-03-22 00:00:00
382
原创 256M参数挑战7B巨头,IBM开源文档处理神器SmolDocling
正是在这样的背景下,IBM 研究院与 Hugging Face 合作推出了 SmolDocling,这是一款超紧凑的视觉语言模型(VLM),专为将复杂的文档转换为结构化的、机器可读的格式而设计。在信息爆炸的时代,我们每天都需要处理大量的文档,无论是工作中的合同、报告,还是学习中的论文、资料。其超紧凑的体积、在各种文档转换任务中的卓越性能(包括 OCR、布局分析以及对复杂元素的识别)、创新的 DocTags 格式以及在 Hugging Face 上的开源发布,都使其成为一个极具吸引力的选择。
2025-03-21 18:59:03
594
原创 8卡L20满血运行 QwQ-32B ,每秒2600+ Tokens,压测数据全公开!
本文详细介绍了 QwQ-32B 模型的部署与测试过程,从环境准备到压力测试,每一步都提供了清晰的操作指南和实际示例。通过这些步骤,大家能够轻松地在自己的环境中部署和测试 QwQ-32B 模型,并根据压测数据对模型性能有更深入的了解。希望本文能为大家在人工智能模型的应用和优化方面提供有价值的参考。
2025-03-20 22:51:21
1104
原创 单卡4090就能跑!Mistral开源多模态小模型3.1:128K上下文+超低延迟,性能碾压GPT-4o Mini
法国AI公司Mistral AI于2025年3月18日正式开源Mistral Small 3.1,这是一款参数规模为240亿(24B)的多模态模型。凭借其128K超长上下文窗口和每秒150 tokens的处理速度,该模型在性能上超越GPT-4o Mini、Gemma 3等竞品,同时仅需单张RTX 4090显卡或32GB内存的Mac设备即可流畅运行,真正实现“小身材,大能量”。
2025-03-18 22:29:12
437
原创 轻松部署Gemma3-27B,L20服务器+最新版vLLM高效推理
本文详细介绍了如何在L20服务器上使用最新版vLLM部署Gemma3-27B模型。通过本文相信你已经成功搭建起了Gemma的推理引擎,可以尽情探索大模型的奥秘。Gemma3-27B模型凭借其强大的语言理解和生成能力,将在各种实际应用场景中发挥重要作用。
2025-03-16 20:25:18
1095
原创 告别高门槛!老旧GPU也能玩转阿里 QwQ-32B 大模型
QwQ-32B 模型部署友好: 无论是原生 ModelScope 部署还是 Ollama 量化部署,都非常简单快捷。老旧 GPU 也能流畅运行: 在 V100 这样的老旧 GPU 上,QwQ-32B 也能跑起来,甚至 Ollama 量化版本对硬件要求更低。性能表现亮眼: 评测数据和简单测试都表明,QwQ-32B 在多个任务上都展现出优秀的性能。如果你也想体验这款“平民级”大模型,不妨按照本文教程,让你的老旧 GPU 焕发新生!相信 QwQ-32B 会给你带来意想不到的惊喜!
2025-03-16 00:30:00
1228
原创 H200部署DeepSeek R1,SGLang调优性能提升2倍,每秒狂飙4000+ Tokens
对于大多数生产环境, SGLang2(启用 --enable-dp-attention)可能是在性能和稳定性之间取得最佳平衡的选择。您可以根据实际应用场景和资源情况, 选择最合适的 SGLang 参数配置。
2025-03-15 00:00:00
1420
原创 生产环境H200部署DeepSeek 671B 满血版全流程实战(四):vLLM 与 SGLang 的性能大比拼
EvalScope是魔搭社区官方推出的模型评测与性能基准测试框架,内置多个常用测试基准和评测指标,如MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH和HumanEval等;支持多种类型的模型评测,包括LLM、多模态LLM、embedding模型和reranker模型。EvalScope还适用于多种评测场景,如端到端RAG评测、竞技场模式和模型推理性能压测等。官网:https://evalscope.readthedocs.io。
2025-03-14 16:49:56
1337
原创 生产环境H200部署DeepSeek 671B 满血版全流程实战(三):SGLang 安装详解
随着前两篇文章的推进,我们已经成功地在H200服务器上完成了DeepSeek 671B满血版的系统初始化以及vLLM的安装配置工作,整个部署架构正逐渐变得丰富和完善。但为了进一步挖掘模型的潜力,实现更加高效、精准的推理服务,SGLang的安装变得至关重要。SGLang作为一种专门针对大型语言模型(LLM)的推理引擎,它具备独特的优化机制,能够在资源利用率和推理速度方面带来显著提升,是整个DeepSeek 671B模型部署生态中不可或缺的一环。在本篇文章中,我们将聚焦于SGLang的安装过程。
2025-03-12 08:24:59
713
原创 生产环境H200部署DeepSeek 671B 满血版全流程实战(二):vLLM 安装详解
在上一篇文章,我们完成了H200服务器的系统初始化工作,包括驱动安装和CUDA环境配置,为DeepSeek 671B模型的部署奠定了基础。然而,面对单机8卡H200的141GB显存和NVLink高速互联的硬件资源,如何高效利用这些资源实现千亿参数大模型的推理加速,成为关键挑战。vLLM 作为一款高性能推理引擎,能够极大提升 DeepSeek 671B 模型在推理阶段的表现,使模型能够更快速、更准确地生成结果,满足生产环境中对实时性和高吞吐量的严苛要求。
2025-03-11 01:45:00
1196
原创 生产环境H200部署DeepSeek 671B 满血版全流程实战(一):系统初始化
NVIDIA H200凭借其141GB超大显存和高速NVLink技术,成为部署DeepSeek 671B 满血版的理想选择。然而,“工欲善其事,必先利其器”——在正式运行模型前,一套稳定、高效的服务器环境是成功的关键。许多开发者在部署大模型时,常因忽略系统配置细节(如驱动冲突、环境变量错误、多GPU通信异常)而踩坑。为此,本系列教程将从最基础的系统初始化开始,逐步拆解单机H200服务器部署DeepSeek 671B 满血版的完整链路,从零搭建高性能推理服务。
2025-03-10 19:50:05
956
原创 VideoLLaMA 2:多模态视频理解新突破,音频理解能力再升级,挑战 GPT-4V
近年来,人工智能技术飞速发展,尤其是大模型的出现,为视频理解和生成领域带来了前所未有的机遇。然而,现有的视频大模型(Video-LLM)在处理视频中复杂的时空信息和音频信息方面仍存在不足,例如无法有效融合不同帧的特征,以及忽视了音频信息在场景理解中的重要作用。为了克服这些挑战,阿里巴巴达摩院发布了,一个旨在提升视频时空建模和音频理解能力的开源视频大模型。
2024-06-26 00:06:56
7235
6
原创 清华、北大与微软推出Glyph-ByT5-v2,精准生成文字海报,支持10种语言,效果炸裂
在 AI 领域,文生图技术已经取得了令人惊叹的进展,但如何将文字精准地融入图像,并支持多种语言,一直是研究人员面临的挑战。为了解决这一难题,清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2,这是一个功能强大的定制多语言文本编码器,可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现,为设计师、开发者以及普通用户提供了一个强大的工具,加速文生图技术的普及和应用,为更广泛的领域带来更智能、更便捷的设计体验。Huggingface模型下载:AI。
2024-06-25 00:11:32
1395
原创 潞晨Open-Sora 1.2发布,16秒720p视频一键生成,质量更高训练成本更低
文生视频技术是近年来 AI 领域最令人瞩目的突破之一。OpenAI 的 Sora 模型展示了令人惊叹的视频生成能力,但其闭源特性限制了技术的普及和发展。而潞晨 Open-Sora 团队则致力于将文生视频技术开源,让更多人能够体验和应用这项技术。Huggingface模型下载:AI快站模型免费加速下载:hpcai-tech16秒720p高清视频,现在一键生成!炫酷的科幻大片Open-Sora 1.2 的开源为文生视频技术的创新和发展注入了强劲的活力。
2024-06-24 00:06:59
1279
原创 Falcon2,110亿参数5.5万亿token,性能超越Llama 3
近年来,大型语言模型(LLM)领域蓬勃发展,不断涌现出新的模型和技术。其中,Meta 的 Llama 3 模型以其强大的性能和开源性,在业界引起了广泛关注。然而,来自阿联酋的技术创新研究所(TII)近日推出了新一代大模型 Falcon 2,其性能超越了 Llama 3,并展现出更多令人瞩目的亮点。Huggingface模型下载:AI快站模型免费加速下载:tiiuae。
2024-06-22 00:03:08
976
原创 让图片开口说话的模型Hallo: 基于音频驱动的肖像图像动画,精准唇形同步,支持多种语言和风格
让静态的图片“开口说话”,一直是人们对人工智能的期待。近年来,随着深度学习技术的发展,音频驱动的肖像图像动画技术取得了长足的进步。各种模型涌现,但如何实现精准的唇形同步、保持视频的真实感和流畅性,以及支持多种语言和风格,仍然是研究人员面临的挑战。来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队,共同开发了一个新的音频驱动肖像图像动画模型Hallo,该模型在多个方面实现了突破,为打造更逼真的动画形象提供了新的可能性。
2024-06-21 00:04:24
1387
原创 B站发布Index-1.9B大模型, 代码、对话、角色扮演,功能齐全,2.8T 数据训练,性能媲美同级别模型
近年来,大模型技术发展迅速,并已在多个领域展现出强大的能力。为了推动大模型技术的普及和应用,许多机构和企业纷纷开源了自己的模型。近日,Bilibili 发布了全新的开源大模型系列——Index-1.9B,该模型凭借着 2.8T 的海量训练数据和独特的训练策略,在代码生成、对话交互、角色扮演等方面展现出出色的性能,并与同级别模型相比处于领先地位。Huggingface模型下载:AI快站模型免费加速下载:IndexTeam。
2024-06-20 00:07:57
1389
原创 DeepSeek发布DeepSeek-Coder-V2,性能超GPT4-Turbo代码能力,236B参数,开源代码模型登顶全球第二
在开源代码模型领域,DeepSeek一直致力于打破闭源模型的垄断,为开发者提供更加强大、灵活的工具。继去年11月发布最强开源代码模型 DeepSeek-Coder 和今年5月发布最强开源 MoE 模型 DeepSeek-V2 后,DeepSeek 再度突破技术壁垒,发布了全新升级的 DeepSeek-Coder-V2。Huggingface模型下载:AI快站模型免费加速下载:DeepSeek-Coder-V2 的发布,标志着开源代码模型发展进入新的阶段。
2024-06-19 00:06:32
2338
原创 智谱GLM-4-9B,超越Llama3,多模态媲美GPT4V
在 2023 年 3 月发布开源对话模型 ChatGLM-6B 后,智谱 AI 迅速成为国内外开源大模型领域的重要力量。今年 6 月,智谱 AI 再次发力,开源了其第四代 GLM 系列模型 —— GLM-4-9B,并首次加入了多模态能力。该模型不仅在性能上超越了 Llama 3 8B,更在多模态能力方面展现出与 GPT-4V 相媲美的实力。Huggingface模型下载:AI快站模型免费加速下载:THUDM智谱 AI 开源 GLM-4-9B,标志着中国开源大模型技术取得了新的突破。
2024-06-18 00:04:41
1539
原创 Mistral AI 发布 Codestral-22B,精通 80+ 编程语言,22B 参数超越 70B Code Llama
大型语言模型 (LLM) 在代码生成领域展现出巨大的潜力,但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B,宣称在多项指标上超越了 GPT-4 和 Llama3,并凭借其出色的性能和 80 多种编程语言的支持,成为了开源代码大模型的新王者。Huggingface模型下载:AI快站模型免费加速下载:mistralai。
2024-06-17 09:03:26
1606
原创 开源医疗大模型Llama3-Aloe-8B-Alpha,性能超越 MedAlpaca 和 PMC-LLaMA
近年来,大型语言模型 (LLM) 在医疗领域展现出巨大潜力,能够帮助医生和研究人员更快地获取信息、分析数据,并提高医疗服务效率。然而,目前市场上大多数医疗 LLM 都是闭源模型,限制了其在学术研究和应用领域的推广。为了打破这一现状,促进医疗 AI 的发展,越来越多的研究团队开始致力于开发开源的医疗 LLM。
2024-06-15 10:27:59
2104
4
原创 李沐团队发布Higgs-Llama-3-70B,角色扮演专用模型
近年来,大语言模型(LLM)在各个领域都展现出强大的能力,尤其是其在对话、写作、代码生成等方面的应用越来越广泛。然而,想要让 LLM 真正地融入人类社会,扮演各种角色,还需要具备更强大的角色扮演能力。为了解决这一问题,李沐团队(Boson AI 创始人)发布了 Higgs-Llama-3-70B,一个专门针对角色扮演任务进行优化的 LLM。该模型基于 Meta 的 LLaMA-3-base 模型,并在角色扮演能力方面进行了针对性的训练。
2024-06-14 00:16:21
2918
1
原创 Stable Diffusion 3震撼发布,开启图像生成新纪元,20亿参数Medium模型率先开源
Stability AI 作为开源图像生成领域的领军者,不断突破技术边界,6月12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型,拥有 20 亿参数,在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本,进一步提升模型能力,满足不同用户的需求。
2024-06-13 00:06:57
711
原创 Stability AI发布AI音频模型Stable Audio Open,文本生成47秒高清音效
Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司,在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据,为音乐制作和声音设计领域带来了新的可能性。Huggingface模型下载:AI快站模型免费加速下载:Stable Audio Open 的开源,为 AI 音频生成领域带来了新的突破。
2024-06-12 03:30:00
1126
原创 阿里发布最强开源大模型通义千问Qwen2,国产最好用的LLM
近年来,大模型技术发展迅速,开源模型的出现为AI研究和应用带来了新的活力。在这一背景下,阿里云通义千问团队发布了全新升级的Qwen2系列开源模型,为国内外开发者提供了更强大的工具和更丰富的选择。Huggingface模型下载:AI快站模型免费加速下载:QwenQwen2的发布标志着阿里在开源大模型领域的又一次重要突破,展现了其在模型研发和应用方面的领先实力。
2024-06-11 00:16:46
1365
原创 字节开源Hyper-SD模型,超越SDXL-Lightning,单步生成SOTA级图像
近年来,扩散模型(Diffusion Model,DM)在图像生成领域取得了显著进展,展现出前所未有的图像质量和多样性。然而,扩散模型的训练和推理过程通常需要多个步骤,这限制了其在实际应用中的效率。为了克服这一挑战,字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD,并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩,甚至实现单步生成高质量图像,同时保持甚至超越原模型的生成效果。Huggingface模型下载:AI快站模型免费加速下载:ByteDance。
2024-06-09 09:57:16
1600
原创 全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练
近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。为了解决这一问题,研究团队开源了MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的民主化。
2024-06-06 00:11:21
1147
原创 YOLOv10开源,高效轻量实时端到端目标检测新标准,速度提升46%
实时目标检测在自动驾驶、机器人导航、物体追踪等领域应用广泛,近年来,YOLO 系列模型凭借其高效的性能和实时性,成为了该领域的主流方法。但传统的 YOLO 模型通常采用非极大值抑制 (NMS) 进行后处理,这会增加推理延迟,阻碍了其端到端部署的应用。此外,现有的 YOLO 模型在架构设计方面也存在着一些局限性,例如计算冗余、参数利用率低等问题,这些问题限制了模型的性能和效率。Huggingface模型下载:AI快站模型免费加速下载:kadirnar。
2024-06-05 07:00:00
1449
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人