Hugging Face

The AI community building the future.

  • 博客(344)
  • 收藏
  • 关注

原创 Open R1 项目进展第三期

虽然最终子任务通常是完整问题,但其他大多数子任务往往是难度较低的问题,参赛者可以选择解决部分子任务以获得部分分数,而不是尝试完美解决完整问题 (完美得分非常罕见)。虽然我们计划未来通过模型生成并验证更多具有挑战性的测试用例,添加到我们的 CodeForces 数据集中,但目前我们转向了其他地方寻找完整可用的题目数据。具体来说,我们先提交针对问题最后一个子任务的解决方案,然后依次提交针对倒数第二个、第三个子任务的代码,同时跳过已解决的子任务。不过不管怎样,我们试过的所有数据集里,打包的表现都不如不打包。

2025-04-03 10:30:40 532

原创 Open R1 项目进展第二期

虽然我们升级了 Math-Verify,让它能更好地处理这些怪格式 (后面会讲改进),但还是找了个备用方案: 用 Llama-3.3-70B-Instruct 当“裁判”,从被拒的答案里救回一些靠谱的。DeepSeek 团队生成了 60 万条推理记录,用来微调 Qwen 和 Llama 系列模型,结果证明,不用强化学习,直接从 R1 “蒸馏”出来的效果也很棒。除此之外,我们还聊聊社区里一些让人兴奋的进展,比如怎么整理出小而精的高质量数据集来微调模型,以及如何在训练和推理时控制推理模型的“思考步数”。

2025-03-31 20:30:29 1021

原创 Open R1 项目进展第一期

但效果不好,吞吐量低,只能同时处理 8 个请求,GPU 的 KV 缓存很快就满了。DeepSeek R1 发布已经两周了,而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。我们这才刚起步呢,打算把训练流程弄完,在小模型上试试,再用放大版的推理流程搞出高质量的数据集。虽然大家还在研究 DeepSeek-R1 的成果和报告,但这款模型在发布短短两周后,就已经火遍了大街小巷,吸引了无数目光。: 一个超棒的合成推理数据集,有 114k 个例子,数学、科学、代码、谜题啥都有。

2025-03-28 10:30:38 928

原创 为什么 AI 模型离科学革命还差得很远?

文章的核心观点是,在未来一两年内,我们将拥有一个“装在数据中心里的爱因斯坦之国”,所有 21 世纪的科学发现将在短短 5 到 10 年内被一股脑地完成,从而压缩了整个世纪的科技进程。现在,我们评估 AI 模型智能提升的方式,大多是通过一些“高难度考试题”,比如所谓的“人类的最后一场考试”或 “Frontier Math”,这些测试由博士生设计,问题复杂但都是封闭式、明确有标准答案的题目。在我看来,按照当前的发展路径,我们真正可能得到的,是“一国的服务器上全是唯唯诺诺的好学生”,而不是爱因斯坦。

2025-03-26 23:31:37 898

原创 常见的 AI 模型格式

GGUF 格式的 Llama-3.1 8B 模型示例,链接https://hf.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main。虽然也可以将其用于其他类型的模型,例如通过stable-diffusion.cpp实现的扩散模型,但这并不像在语言模型中的应用那样普遍。

2025-03-25 20:31:06 747

原创 SmolVLM2: 让视频理解能力触手可及

模型与演示全集https://hf.co/collections/HuggingFaceTB/smolvlm2-smallest-video-lm-ever-67ab6b5e84bf8aaa60cb17c7。虽然属于实验性发布,但期待它能激发更多创新应用。微调笔记https://github.com/huggingface/smollm/blob/main/vision/finetuning/SmolVLM2_Video_FT.ipynb。我们推出三款新模型 (2.56 亿/5 亿/22 亿参数)。

2025-03-21 23:00:28 840

原创 在 Hugging Face Spaces 上使用 Gradio 免费运行 ComfyUI 工作流

在本教程中,我将逐步指导如何将一个复杂的 ComfyUI 工作流转换为一个简单的 Gradio 应用程序,并讲解如何将其部署在 Hugging Face Spaces 的 ZeroGPU 无服务器架构上,这样可以让它以无服务器的方式免费部署和运行。不过,你可能需要根据本教程中学到的知识进行一些修正。虽然需要一些基础的编程知识,但我鼓励初学者尝试跟随本教程,因为它可以作为一个很好的 Python、Gradio 和 Hugging Face Spaces 的入门指南,不需要太多的编程经验。

2025-03-18 22:30:39 679

原创 在 Hugging Face 上部署语音转语音模型

介绍S2S (语音到语音)是 Hugging Face 社区内存在的一个令人兴奋的新项目,它结合了多种先进的模型,创造出几乎天衣无缝的体验: 你输入语音,系统会用合成的声音进行回复。https://github.com/huggingface/speech-to-speech该项目利用 Hugging Face 社区中的 Transformers 库提供的模型实现了流水化处理。该流程处理由以下组件...

2025-03-11 10:30:37 853

原创 LayerSkip: 使用自推测解码加速大模型推理

自推测解码是一种新颖的文本生成方法,它结合了推测解码 (Speculative Decoding) 的优势和大语言模型 (LLM) 的提前退出 (Early Exit) 机制。该方法出自论文LayerSkip: Enabling Early-Exit Inference and Self-Speculative Decoding。它通过使用 同一个模型 的早期层来生成候选词元 (token),并使...

2025-03-10 10:31:08 881

原创 从文件到块: 提高 Hugging Face 存储效率

Hugging Face 在Git LFS 仓库中存储了超过30 PB 的模型、数据集和 Spaces。由于 Git 在文件级别进行存储和版本控制,任何文件的修改都需要重新上传整个文件。这在 Hub 上会产生高昂的成本,因为平均每个 Parquet 和 CSV 文件大小在 200-300 MB 之间,Safetensor 文件约 1 GB,而 GGUF 文件甚至可能超过 8 GB。设想一下,仅仅修...

2025-03-03 17:30:27 651

原创 让 LLM 来评判 | 设计你自己的评估 prompt

这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示通用 prompt 设计建议我总结的互联网上通用 prompt 的通用设计原则如下:任务描述清晰:Your task is to do X (你的任务是 X).You will be provided with Y (你拿到的信息是 Y...

2025-02-26 10:30:55 580

原创 AI 艺术工具通讯

创刊号 ????AI 领域的发展速度令人惊叹,回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景,恍如隔世 ????。过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具,并展望 2025 年的发展趋势 (剧透预警 ????: 我们将启动月度资讯精选的订阅????)。2024 重大发...

2025-02-20 17:30:25 863

原创 让 LLM 来评判 | 奖励模型相关内容

这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示什么是奖励模型?奖励模型通过学习人工标注的成对 prompt 数据来预测分数,优化目标是对齐人类偏好。训练完成后,奖励模型可以作为人工评估代理的奖励函数,用来改进其他模型。成对比较评分最常见的奖励模型类型是 Bradley-Terry ...

2025-02-14 10:30:48 538

原创 让 LLM 来评判 | 评估你的评估结果

这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的任务表现一致。注:如果评估模型的输出结果是二元分类,那么评估会相对简单,因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率...

2025-02-10 10:30:22 289

原创 让 LLM 来评判 | 选择 LLM 评估模型

这是 让 LLM 来评判 系列文章的第二篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示使用现有的 LLM 评估模型时,你可以选择:通用性强、能力高的大模型、专业性强、特定数据偏好的小模型、或自行训练模型。通用性强、能力高的大模型https://arxiv.org/abs/2306.05685v4专业性强、特定数据偏好的小...

2025-01-14 10:30:26 629

原创 让 LLM 来评判 | 基础概念

这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:基础概念选择 LLM 评估模型设计你自己的评估 prompt评估你的评估结果奖励模型相关内容技巧与提示什么是评估模型?评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。评估模型涵盖的范围很广,从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM,或大而广...

2025-01-10 22:30:29 633

原创 自动评估基准 | 一些评估测试集

这是 自动评估基准 系列文章的第三篇,敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。下面列出了一些近年来开发构建的评估数据集。需要注意的是:大部分数据集有些 “过时”,因为它们是在 LLM 出现之前构建的,当时是为了评估语言文本的某个特定属性 (如翻译、摘要),但是可能已经不适合现在的 LLM 评估方法了 (现...

2025-01-08 10:30:46 255

原创 基于开放模型的推理时计算缩放

过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难题进行“更长时间的思考”。最著名的案例是 OpenAI 的 o1 模型,随着推理时计算量的增加,该模...

2024-12-31 10:30:40 973

原创 自动评估基准 | 技巧与提示

这是 自动评估基准 系列文章的第四篇,敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示数据污染管理通常我们会假设在互联网上公开可用的数据集是存在数据污染问题的。缓解措施有:测试集中加入 哨兵字符串 (canary string) (如BigBench),这是一种特殊的字符组合,使得模型创建者可以在训练集中查找,来表明该数据中是否包含评估。https://github.com/...

2024-12-27 10:30:33 568

原创 自动评估基准 | 设计你的自动评估任务

这是 自动评估基准 系列文章的第二篇,敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示选择数据集做评估时,你可以选择现有的数据集 (参考一些评估数据集页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据集质量高度相关 。评估数据集https://github.com/huggingface/evaluation-guidebook/blo...

2024-12-25 20:30:58 874

原创 自动评估基准 | 基础概念

这是 自动评估基准 系列文章的第一篇,敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示注:本文内容与我写的通用评估博客存在部分重叠https://hf.co/blog/clefourrier/llm-evaluation什么是自动评估基准?自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些“某些方面”可以是一个明确定义的具体任务,例如“我的模型在垃圾...

2024-12-24 23:27:20 413

原创 人工评估 | 技巧与提示

这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括:基础概念人工标注员技巧与提示建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。任务设计简单至上:标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注,从而提高标注质量。检查信息:标注任务避免引入不必要的信息。仅提供任务必需的信息即可...

2024-12-19 10:30:12 670

原创 欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的SigLIP进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。https://hf.co/collections/google/siglip-659d5e62f0ae1a57ae0e83ba模型规模和输入分辨率PaliGe...

2024-12-18 10:30:19 916

原创 人工评估 | 人工标注员

这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:基础概念人工标注员技巧与提示推荐阅读这篇综述的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧!Analyzing Dataset Annotation Quality Management in the Wildhttps://aclanthology.org/2024.cl-...

2024-12-13 10:31:02 708

原创 人工评估 | 基础概念

这是 人工评估 系列文章的第一篇《基础概念》,全系列包括:基础概念人工标注员技巧与提示什么是人工评估?人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。系统化评估系统化的人工评估主要有 3 种方式:如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输...

2024-12-11 10:31:05 957

原创 开源开发者指南:欧盟《人工智能法案》解读

非法律建议。欧盟《人工智能法案》 (EU AI Act) 是全球首部全面的人工智能立法,现已正式生效,它将影响我们开发和使用人工智能的方式——包括在开源社区中的实践。如果您是一位开源开发者,正在适应这一新环境,可能会想知道这对您的项目意味着什么。本指南重点解读了该法规的关键要点,特别是针对开源开发者,提供了对这一法规的清晰介绍,并指引您使用相关工具来帮助合规。免责声明:本指南提供的信息仅供参考,不...

2024-12-05 10:30:18 914

原创 设计位置编码

Gall 定律 一个有效的复杂系统通常是从一个有效的简单系统演化而来的 —— John Gall本文将带你一步步探究 Transformer 模型中先进的位置编码技术。我们将通过迭代改进编码位置的方法,最终得出 旋转位置编码 (Rotary Postional Encoding, RoPE),这也是最新发布的LLama 3.2和大多数现代 transformer 模型所采用的方法。本文旨在尽量减少...

2024-12-03 10:31:05 930

原创 介绍 GGUF-my-LoRA

随着 llama.cpp 对 LoRA 支持的重构,现在可以将任意 PEFT LoRA 适配器转换为 GGUF,并与 GGUF 基础模型一起加载运行。为简化流程,我们新增了一个名为 GGUF-my-LoRA 的平台。什么是 LoRA?LoRA(Low-Rank Adaptation,低秩适配)是一种用于高效微调大型语言模型的机器学习技术。可以将 LoRA 想象成给一个大型通用模型添加一小组专门的指...

2024-11-25 10:30:39 442

原创 Halo 正式开源: 使用可穿戴设备进行开源健康追踪

在飞速发展的可穿戴技术领域,我们正处于一个十字路口——市场上充斥着各式时尚、功能丰富的设备,声称能够彻底改变我们对健康和健身的方式。然而,在这些光鲜的外观和营销宣传背后,隐藏着一个令人担忧的现实:大多数这些设备是封闭系统,其内部运行被专有代码和封闭硬件所掩盖。作为消费者,我们对这些设备如何收集、处理及可能共享我们的健康数据一无所知。这时,Halo 出现了,它是一种旨在让健康追踪更加普惠化的开源替代...

2024-11-21 15:01:13 1118

原创 通用辅助生成: 使用任意辅助模型加速解码

太长不看版: 许多 LLM (如 gemma-2-9b 、 Mixtral-8x22B-Instruct-v0.1 等) 苦于缺乏对应小模型,而无法适用辅助生成方案。本文,我们将介绍由英特尔研究院和 Hugging Face 合作开发的 通用辅助生成 技术。有了这项技术,LLM 可与 任意 SLM 搭配组成辅助生成方案。从而,我们可以用辅助生成技术加速 任意 解码器模型或混合专家模型以获得 1.5...

2024-11-19 10:31:06 833

原创 欢迎 Stable Diffusion 3.5 Large 加入 Diffusers

作为Stable Diffusion 3的改进版本,Stable Diffusion 3.5 如今已在 Hugging Face Hub 中可用,并可以直接使用 ???? Diffusers 中的代码运行。https://hf.co/blog/sd3本次发布包含两套模型参数:https://hf.co/collections/stabilityai/stable-diffusion-35-671785c...

2024-11-07 10:30:39 1289

原创 SynthID Text 现已发布|在 AI 生成文本中应用不可见水印的新技术

你是否难以分辨一段文本是由人类撰写的,还是 AI 生成的?识别 AI 生成内容对于提升信息可信度、解决归因错误以及抑制错误信息至关重要。今天,Google DeepMind和 Hugging Face 共同宣布,在Transformers v4.46.0版本中,我们正式推出了SynthID Text技术。这项技术能够通过使用logits 处理器为生成任务添加水印,并利用分类器检测这些水印。Goog...

2024-11-05 22:30:54 531

原创 为数据集而生的 SQL 控制台

随着数据集的使用量急剧增加,Hugging Face 社区已经变成了众多数据集默认存放的仓库。每月,海量数据集被上传到社区,这些数据集亟需有效的查询、过滤和发现。Dataset Monthly Creations每个月在 Hugging Face Hub 创建的数据集我们现在非常激动地宣布,您可以直接在 Hugging Face 社区中对您的数据集进行 SQL 查询!数据集的 SQL 控制台介绍在...

2024-10-30 10:30:47 1023

原创 Hugging Face 与 TruffleHog 合作,实现风险预警

我们非常高兴地宣布与 Truffle Security 建立合作伙伴关系并在我们的平台集成 TruffleHog 强大的风险信息扫描功能。这些特性是我们持续致力于提升安全性的重要举措之一。https://hf.co/blog/2024-security-featuresTruffleHog 是一款开源工具,用于检测和验证代码中的机密信息泄露。它拥有广泛的检测器,覆盖多种流行 SaaS 和云服务提供...

2024-10-29 22:30:23 802

原创 顶点着色网格转换为 UV 映射的纹理化网格

https://dylanebert-instanttexture.hf.space/简介顶点着色是一种将颜色信息直接应用于网格顶点的简便方法。这种方式常用于生成式 3D 模型的构建,例如InstantMesh。然而,大多数应用程序更偏好使用 UV 映射的纹理化网格。InstantMeshhttps://hf.co/spaces/TencentARC/InstantMesh本教程将介绍一种快速的解...

2024-10-23 10:30:53 500

原创 使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

在端侧部署 Transformer 模型需要仔细考虑性能和兼容性。Python 虽然功能强大,但对于部署来说有时并不算理想,特别是在由 C++ 主导的环境中。这篇博客将指导您如何使用 Optimum-Intel 和 OpenVINO™ GenAI 来优化和部署 Hugging Face Transformers 模型,确保在最小依赖性的情况下进行高效的 AI 推理。为什么使用 OpenVINO 来...

2024-10-21 10:30:43 929

原创 更快的辅助生成: 动态推测

⭐ 在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从Transformers????发布的版本4.45.0开始,这种方法是辅助生成的默认模式⭐Transformers????https://github.com/huggingface/transformers4.45.0 版本发布信息http...

2024-10-17 23:30:40 746

原创 现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

Llama 3.2 来了!今天,我们欢迎 Llama 系列的下一个版本加入 Hugging Face。这次,我们很高兴与 Meta 合作发布多模态和小型模型。在 Hub 上提供了十个开源模型 (5 个多模态模型和 5 个仅文本模型)。Llama 3.2 Vision 有两种尺寸: 11B 适用于在消费级 GPU 上的高效部署和开发,90B 适用于大规模应用。两种版本都有基础版和指令微调版。除了这四...

2024-10-15 10:30:19 1252

原创 揭秘 FineVideo 数据集构建的背后的秘密

开放视频数据集稀缺,因此减缓了开源视频 AI 的发展。为此,我们构建了FineVideo,这是一个包含 43,000 个视频的数据集,总时长为 3,400 小时,并带有丰富的描述、叙事细节、场景分割和问答对。FineVideohttps://hf.co/spaces/HuggingFaceFV/FineVideo-ExplorerFineVideo 包含高度多样化的视频和元数据集合,使其成为训练模...

2024-10-11 10:30:50 937

原创 Gradio 5 稳定版正式发布

在过去的几个月里,团队成员们一直在努力共同推动一项重大发布。今天,我们想向大家展示成果——Gradio 5 稳定版现已发布。有了 Gradio 5,开发者可以构建 生产级的机器学习 Web 应用,这些应用不仅性能优越、可扩展、设计精美、易于访问,而且还遵循了最佳的 Web 安全实践。更重要的是,只需几行 Python 代码即可实现。想要体验 Gradio 5,只需在终端中输入以下命令:pipin...

2024-10-10 10:12:19 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除