
HuggingFace
文章平均质量分 95
Every DAV inci
这个作者很懒,什么都没留下…
展开
-
Falcon Mamba:首个高效的无注意力机制7B模型
是由阿布扎比的开发并基于的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中使用它进行研究或应用。在这篇博客中,我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力,以及如何在Hugging Face生态系统中使用它。原创 2024-09-02 15:48:34 · 973 阅读 · 0 评论 -
在 Hub 上使用 Presidio 进行自动 PII 检测实验
我们在 Hugging Face Hub 上托管的机器学习(ML)数据集中发现了一个引人关注的现象:包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。在本篇博客中,我们将深入探讨含有一种称为个人识别信息(PII)的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。原创 2024-08-20 21:46:38 · 979 阅读 · 0 评论 -
开源大语言模型作为 LangChain 智能体
LLM 智能体的定义非常宽泛: 它们指的是所有将 LLMs 作为核心引擎,并能够根据观察对其环境施加影响的系统。这些系统能够通过多次迭代“感知 ⇒ 思考 ⇒ 行动”的循环来实现既定任务,并常常融入规划或知识管理系统以提升其表现效能。你可以在的研究中找到对智能体领域综述的精彩评述。今天,我们将重点放在ReAct 智能体上。ReAct采用一种基于“推理(Reasoning)”与“行动(Acting)”结合的方式来构建智能体。在提示词中,我们阐述了模型能够利用哪些工具,并引导它“逐步”思考 (亦称为思维链。原创 2024-08-20 21:43:43 · 744 阅读 · 0 评论 -
HuggingFace-RL-Unit2-Part1——Q-learning算法介绍
在强化学习中,我们构建一个能做智能决策的智能体。例如,一个学习玩电子游戏的智能体,或一个能够通过决定商品的购入种类和售出时间从而最大化收益的贸易智能体。但是为了做出比较聪明的决策,我们的智能体需要通过反复试验与环境交互并接受奖励(正向或负向)作为唯一反馈,以此进行学习。智能体的目标是最大化累计期望奖励(基于奖励假设)智能体的决策过程称作策略π:给定一个状态,一个策略将输出一个动作或一个动作的概率分布。也就是说,给定一个环境的观察,策略将会输出一个行动(或每一个动作的概率),智能体将会执行该动作。翻译 2023-06-24 18:30:41 · 326 阅读 · 0 评论 -
HuggingFace-RL-Unit2-Part2——初探Q-Learning
Q-Learning是一种离线策略的基于价值的方法,它使用时序差分方法来训练其动作-价值函数离线策略:我们将在本单元的最后讨论这个问题。基于价值的方法:通过训练一个价值函数或动作-价值函数来间接地找到最优策略,该函数能告诉我们每个状态或每个状态-动作对的价值。使用时序差分方法在每一步更新其动作-价值函数,而不是在回合结束时进行更新。Q-Learning是我们用来训练 Q 函数的算法,Q 函数是一个动作-价值函数,用于确定在特定状态下采取特定动作的价值。翻译 2023-06-24 18:41:01 · 577 阅读 · 0 评论