自然语言
文章平均质量分 81
javastart
专注于大数据 AI
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
腾讯大模型2面:vLLM问的太细了...
又一位学员报喜!,年包30W左右,薪资怒涨50%!为了助力秋招,,我将手把手带大家实战一个真实企业级项目,此外也增加了多模态专题【面试常考】。准备秋招的小伙伴们,卷起来吧!vLLM V1 引擎通过优化其核心引擎循环,将输入处理并行化,并引入了分段式 CUDA 图,从而实现了更灵活、动态的执行模型,显著降低了在线服务的延迟(TTFT 和 TPOT),同时保持了高吞吐量。其设计目标是确保 GPU 不闲置,通过 API 服务器和 EngineCore 之间的协作来高效调度和执行任务。原创 2025-09-17 13:44:13 · 623 阅读 · 0 评论 -
得助智能保险知识图谱,助力永安保险实现智能化知识管理
知识图谱的内涵更加丰富,是知识的另一种表现形式,中关村科金打造的得助知识图谱可为企业提供多源异构数据知识整合服务,已广泛应用于金融、保险、制造、医美等领域积累了10+行业知识,KBQA知识问答准确率超过90%,实现百万级图计算秒级响应。),从知识库中已有的实体关系数据出发、经计算机推理,建立实体间的新关联,从而拓展和丰富知识网络,通过知识推理能发现新的知识,简而言之通过各种方法获取新的知识或者结论。的抽取效率,我们开发了自动标注工具(如下图所示),按照上述三种维度进行数据自动标注,标注的数据按照。原创 2025-09-15 11:21:32 · 830 阅读 · 0 评论 -
LMCache:KV缓存管理
从开源到企业,从Red Hat到Kubernetes再到NVIDIA和Moonshot,表现最好的LLM推理堆栈都在押注LMCache。如果你正在构建可扩展、高速或成本效益高的系统,那么可能也是时候这样做。无论你是在运行一个长上下文聊天机器人、文档摘要器还是多租户API后端,性能都取决于你在计算节点之间如何管理KV缓存。现代基于Transformer的LLM如LLaMA、Mixtral和DeepSeek需要持久化的注意力键/值缓存来高效地处理长提示。和。这就是。原创 2025-09-14 23:25:40 · 1189 阅读 · 0 评论 -
使用 LMCache + vLLM 提升 AI 速度并降低 GPU 成本
LMCache 是 vLLM 等运行大型 AI 模型的系统的小助手。它保存这些被称为KV 缓存的东西——基本上是 AI 阅读文本后的便利贴。LMCache 不会每次都涂写新的笔记,而是将它们放在手边,这样你的 AI 就不会浪费时间或消耗昂贵的 GPU 算力。你的 AI 开始以惊人的速度回答问题——有时快七倍,不开玩笑。它使用更少的 GPU 资源,所以你不会因为云账单而哭泣。它非常适合聊天机器人或应用程序,在这些应用中,你会一直看到相同的文本,比如搜索结果或冗长的设置消息。原创 2025-09-14 23:16:24 · 1214 阅读 · 0 评论 -
OpenRLHF:面向超大语言模型的高性能RLHF训练框架
OpenRLHF 是由 OpenLLMAI 团队于2024年推出的开源强化学习人类反馈(RLHF)框架,旨在解决大语言模型(LLM)对齐训练中的多模型协调瓶颈与超大规模扩展难题。人类偏好胜率:在Anthropic HH数据集上,OpenRLHF微调的Llama3-70B模型胜率达 79.3%,超越基础SFT模型 15.2%。模型协调复杂:需同步管理行动者(Actor)、评价者(Critic)、奖励模型(RM)、参考模型(Reference)四个模型,GPU资源争夺严重。原创 2025-09-12 07:19:13 · 1218 阅读 · 0 评论 -
【开源】开源神器LiteLLM如何成为AI开发者的效率密码?21.1K star,零代码调用百种大模型!
在AI应用开发中,调用不同大模型(如OpenAI、Azure、Anthropic等)的API接口碎片化问题长期存在——每个平台的接口格式、参数命名、错误处理逻辑均不兼容,开发者不得不为每个模型单独编写适配代码,维护成本极高。而开源工具LiteLLM的诞生,彻底终结了这一痛点,它以统一接口+智能管理为核心,让多模型调用变得像点外卖一样简单。- 成本控制:相比UnionLLM的粗放式管理,LiteLLM支持按项目隔离预算,避免资源浪费。1. 企业级AI中台:统一管理多个业务线的模型调用,隔离数据与权限。原创 2025-09-10 16:10:32 · 442 阅读 · 0 评论 -
dify案例分享-国内首发!手把手教你用Dify调用Nano BananaAI画图
今天主要带大家了解并实现了基于 Dify 工作流构建 Nano Banana(Gemini 2.5 Flash Image)图像生成与编辑系统的完整流程,该系统以开源的 nano_banana 插件为核心,结合 Dify 平台的工作流逻辑和 LLM 提示词优化能力,形成了一套覆盖文生图、图生图及多风格转换的图像生成方案。我们看一下生成的效果。今天的分享就到这里结束了,我们下一篇文章见。这个地方主要是目的是AI 生成的提示词内容比较多,我们关心的是它的核心系统提示词,我用代码正则表达式提取这些核心提示词。原创 2025-09-03 22:49:25 · 1135 阅读 · 0 评论 -
容联云语音坐席代理:懂业务的Agent,让金融对话更有温度与效率
在保险外呼中,重复的福利活动、保单推销被秒挂断……在通话中,坐席代理实时分析用户语气、提问内容,当探测到用户不悦,则不会继续傻瓜式推荐,快速播放结束语。基于此,容联云打破传统语音交互的局限,依托大模型技术与金融业务逻辑的深度融合,推出「大模型语音坐席代理」,以“更懂金融、更懂客户”为核心,让Agent真正成为金融营销服中的“金牌坐席”容联云坐席代理能够识别用户负面情绪,自动切换分期策略话术,在传递催收信息的同时,充分理解用户的需求和情绪,使催收工作更具温度和效果,既提高催收成功率,又维护良好的客户关系。原创 2025-08-28 13:14:27 · 683 阅读 · 0 评论 -
视觉大模型Qwen2.5-VL-7B菜品大模型训练过程及成果
同样通过调用第三方大模型获取每个类别(菜品)的简介以及对应的食谱,这类数据在全参数训练或微调时能够保持模型的基本语言理解能力以及增强泛化能力,在构建训练数据时按比例加入可提升训练效果。干锅土豆片的做法步骤如下:1. 土豆去皮后切成均匀薄片,用清水冲洗去多余淀粉,沥干备用。2. 锅中倒入适量油,放入花椒和干辣椒,小火慢炸出香味,不要炸糊。3. 下土豆片,大火翻炒至表面微微焦黄,土豆片变软。4. 淋入辣椒油,继续翻炒均匀,让土豆片充分裹上红亮的辣油和香料。5. 加入切段的青蒜,快速翻匀,撒适量盐调味。原创 2025-08-28 09:14:26 · 1118 阅读 · 0 评论 -
大模型缓存系统 LMCache,知多少 ?
在 vLLM 的部署实践中,Production Stack(vLLM 官方生态中的核心组件)已经原生支持 LMCache,并通过智能路由机制将推理请求按需指向对应的 KV 缓存位置,实现了跨请求、跨会话的缓存共享与复用。在这一背景下,LMCache 应运而生,作为一种新型缓存系统方案,旨在通过精准的 KV 缓存调度与跨请求共享机制,显著降低推理成本,同时优化响应延迟,从而推动大模型推理基础设施向更高性能、更低成本的方向迈进。这种插件式设计不仅增强了系统的可扩展性,也为企业部署提供更广泛的适配空间。原创 2025-08-18 11:03:37 · 1101 阅读 · 0 评论 -
【开源项目】当大模型推理遇上“性能刺客”:LMCache 实测手记
过去优化 LLM 推理只有两条路:加 GPU 或量化模型。而 LMCache 走出了第三条路——用系统设计榨干硬件潜力。它像给大模型装上“记忆外挂”,让重复计算成为历史。项目已在 GitHub 开源(),文档里有不少社区贡献的 benchmark 脚本。原创 2025-08-18 09:50:17 · 1140 阅读 · 0 评论 -
OpenMemory MCP发布!AI记忆本地共享,Claude、Cursor一键同步效率翻倍!
这一开源工具允许用户将AI交互内容存储在本地,并通过MCP协议共享至支持的客户端,如Claude、Cursor和Windsurf,只需维护一份记忆内容即可实现跨工具上下文同步。然而,社交媒体指出,工具的客户端兼容性目前局限于MCP支持的应用,需更多主流工具(如VS Code的GitHub C opilot)加入MCP生态。跨工具项目流:用户在Claude Desktop定义项目技术需求,在Cursor构建代码,在Windsurf调试问题,所有工具共享OpenMemory中的上下文,避免重复说明。原创 2025-08-17 23:03:47 · 1042 阅读 · 0 评论 -
基于 vLLM 的大模型推理服务部署
大型语言模型(LLM)凭借其强大的语言理解和文本生成能力,已成为内容创作等领域的核心驱动力。然而,在实际生产环境中部署LLM服务面临诸多挑战,尤其是高推理延迟和资源消耗巨大的问题,严重制约了其应用效率与用户体验。vLLM是一个专为高效LLM推理和服务而设计的高性能开源框架。其核心创新在于采用了先进的支持更高的并发请求处理能力。加快单次请求响应速度。更有效地服务更长上下文或更大的模型。本文将聚焦于使用vLLM部署模型,构建智能客服场景下的推理服务。原创 2025-08-14 22:29:23 · 1315 阅读 · 0 评论 -
(万字长文)图解大模型的推理,理解大模型推理过程,理解什么是测试时计算扩展test-time compute
与常规 LLM 相比,推理型 LLM 在回答问题前,往往会先将问题拆解为更小的步骤(通常称为推理步骤或思考过程),也可以说是思维链COT。普通大模型直接给出答案,没有给出求解过程。推理型大模型会将推理过程和答案一起输出。那么,“思考过程”、“推理步骤”或“思维链”(CoT, Chain-of-Thought)究竟意味着什么?编辑细说复旦大学,斯坦福大学智能代理AI-Agent(二更)281 赞同 · 16 评论文章编辑大模型中的思维链、思维树、思维图19 赞同 · 2 评论文章。原创 2025-08-14 17:34:01 · 912 阅读 · 0 评论 -
专为AI伴侣设计的开源记忆框架!MemU:可让AI助手/虚拟助手拥有长期记忆能力!
MemU 打破传统黑盒向量存储模式,将记忆以可读文档形式组织,存储于智能文件夹中,由「记忆代理」自动管理:动态筛选需记录的内容、更新旧记忆、归档无效信息。区别于传统向量嵌入的不可读存储,MemU 采用结构化文档组织记忆,支持人工直接查看(透明化AI记忆内容)、手动编辑(修正错误记忆)及实时分析(统计与可视化),兼顾调试便捷性与数据可操作性。例如提及“上周看的电影”时,能快速关联用户“电影偏好”“观影好友”等延伸信息,强化上下文理解的连贯性。:记录用户之间的故事、情绪、笑点,实现“性格成长”。原创 2025-08-14 14:09:15 · 914 阅读 · 0 评论 -
Mem0:新一代AI Agent的持久化记忆体系
Mem0 是一个轻量级、可扩展的长期记忆框架,支持本地部署和云端使用。其设计初衷是为 LLM 提供结构化的记忆支持,帮助智能体记住用户偏好、背景信息等,从而提供更个性化、更连贯的回答。Mem0 作为一个易用、灵活且功能强大的记忆增强框架,极大地扩展了大语言模型的上下文记忆能力。无论是构建常见的多轮对话机器人、智能搜索系统还是个性化推荐服务,Mem0 都是一个非常值得尝试的工具。原创 2025-08-14 13:45:49 · 1265 阅读 · 0 评论 -
vLLM 0.10重磅更新:性能飙升2.5倍,v1引擎重塑大模型推理体验!
同时,针对升级过程中可能遇到的MoE模型与FP8量化兼容性问题(如"output_size not divisible by block_n"和"start out of range"等错误),提供详细解决方案。MoE模型中moe_intermediate_size(如768)需要被tensor_parallel_size(TP)和block_n同时整除。在您的错误日志中,可以看到大量/vllm/v1/...路径,这正是新v1引擎的代码结构,与旧版有着本质区别。然而,这也带来了新的挑战…原创 2025-08-14 10:54:48 · 975 阅读 · 0 评论 -
让你的服务变成MCP Server?FastAPI MCP 指南
无论开发一个简单的原型,还是打造一个面向生产的复杂系统,FastAPI MCP 都能提供足够的灵活性与精细的控制能力,帮助您高效地将现有 API 功能安全、准确地暴露给 AI 模型使用。借助 FastAPI MCP 服务器的支持,开发者可以更高效地将现有的 API 接口集成到 AI 模型的工作流中,从而实现模型对工具的智能调用。由于所有的 API 逻辑都维护在一个单一的真实来源中,任何更新或修改都会自动同步到所有相关的应用和服务,包括那些由 AI 模型使用的部分。,获取所需的实时信息。原创 2025-08-14 07:28:10 · 755 阅读 · 0 评论 -
deepseek 技巧整理
请帮我列出减肥期间可以吃的水果,并分析该水果含有的营养元素,以表格的形式星现。1.要以html的方式输出 2.要可以直接运行 3.页面要提供可以直接下载word和excel功能。原创 2025-05-02 21:19:00 · 552 阅读 · 0 评论 -
深入解析大型应用架构:以dify为例进行分析
Dify 是一款开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式 AI 应用的创建和部署。它融合了后端即服务(Backend as a Service, BaaS)和 LLMOps 的理念,使开发者能够快速搭建生产级的生成式 AI 应用。即使是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。。让我们开始看代码吧(先摸清楚代码的“骨骼”)原创 2025-04-04 14:11:32 · 1893 阅读 · 0 评论 -
深入解读大模型开发工具Dify--底层数据存储
dify在使用pg时,使用了两个库dify与dify_plugin。多类型数据库协同:Dify 采用了 PostgreSQL、Redis、文件存储和向量数据库的多层次存储架构,实现了数据的高效管理与快速访问。数据隔离与安全:通过 dify 和 dify_plugin 两个独立数据库的设计,确保了核心数据与插件数据的有效隔离,提升了系统的安全性。灵活部署配置:支持 Docker 部署和源码部署两种模式,通过环境变量配置数据库连接信息,提供了高度的部署灵活性。性能优化机制。原创 2025-04-04 14:04:55 · 1420 阅读 · 0 评论 -
任务型多轮对话(二)| 意图识别
在任务型多轮对话中,意图识别是一个关键的环节。意图识别是指从用户输入的对话内容(如文本、语音等形式)中分析并判断出用户的目的或者意图。例如,在一个智能客服对话系统中,用户输入“我想要查询一下我的订单状态”,系统通过意图识别就能判断出用户的意图是查询订单状态。它能够帮助对话系统理解用户想要做什么,从而决定对话的走向。如果系统正确识别了用户是要查询订单状态,就可以引导用户提供订单相关的信息,如订单号等,以便完成查询任务。准确的意图识别可以避免系统对用户的回答驴唇不对马嘴。原创 2025-03-21 18:01:23 · 1883 阅读 · 0 评论 -
Predibase发布端到端强化微调平台RFT
为了展示RFT的强大能力,Predibase基于某知名开源模型Qwen2.5-Coder-32B-instruct,微调出了一款专门用于将PyTorch代码翻译为Triton代码的新模型Predibase-T2T-32B-RFT。与传统监督式微调方法不同,Predibase-T2T-32B-RFT利用RFT以交互方式调整模型行为,仅需少量标注数据即可显著优化下游任务的表现,成为专有大语言模型的一种高性价比、高性能替代方案。基于这一启发,Predibase团队设计并实现了一个端到端无服务器的强化微调平台。原创 2025-03-21 10:52:10 · 444 阅读 · 0 评论 -
微调数据集开源项目Easy DataSet !
原文:微调数据集太难搞?我直接手搓一个开源项目!微调模型想加餐 文献堆成五指山 传统方法泪两行 AI生成总截断 重复问题脑壳瘫 - 掘金如何将领域文献转换为可供模型微调的数据集?大家好,我是 ConardLi本文为:想微调特定领域的 DeepSeek,数据集究竟要怎么搞? 对应的第一个实战章节,通过今天的文章,将带大家学习:很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家原创 2025-03-19 07:35:38 · 3286 阅读 · 0 评论 -
手把手教你三步极速蒸馏DeepSeek R1,效果媲美OpenAI o3 mini!
手把手教你三步极速蒸馏DeepSeek R1,效果媲美OpenAI o3 mini!摘要•帮你速读文章内容DeepSeek蒸馏小模型媲美OpenAI,通过百度智能云千帆ModelBuilder,3小时低成本将DeepSeek-R1知识蒸馏至轻量级模型,性能大幅提升,训练成本最低900元,助力企业优化AI模型性能。摘要由作者通过智能技术生成在今年1月末,DeepSeek再度抛出了一个重磅消息:“蒸馏小模型超越OpenAI o1-mini”。原创 2025-03-04 22:00:11 · 1205 阅读 · 0 评论 -
大模型数据蒸馏实战
大模型数据蒸馏通过将大模型的知识转移到小模型,实现模型压缩、加速推理和降低成本等目标。主要步骤包括选择模型、准备数据、生成软标签和训练学生模型。原创 2025-03-04 16:42:56 · 1293 阅读 · 0 评论 -
大语言模型推理加速技术:模型压缩篇
本篇介绍左边蓝色的部分,右边绿色的部分在上篇文章在上一篇文章中我们介绍了不改变模型结构的条件下,加速模型推理的技术,即让模型“算得更快”。而这篇文章将介绍模型压缩的技术,即让模型“算得更少”。量化(Quantization):使用低精度(≤16位)存储模型权重。精简Attention:通过一些变种的Attention算法减少模型计算量。除此之外还有“投机采样”这种巧妙的采样方法也可以视为对大模型的压缩。而传统的几个压缩方法比如知识蒸馏和剪枝。原创 2024-02-26 09:22:21 · 3580 阅读 · 1 评论 -
我的PyTorch模型比内存还大,怎么训练呀?
随着深度学习的飞速发展,模型越来越臃肿,哦不,先进,运行SOTA模型的主要困难之一就是怎么把它塞到 GPU 上,毕竟,你无法训练一个设备装不下的模型。改善这个问题的技术有很多种,例如,分布式训练和混合精度训练。本文将介绍另一种技术: 梯度检查点(gradient checkpointing)。简单的说,梯度检查点的工作原理是在反向时重新计算深层神经网络的中间值(而通常情况是在前向时存储的)。这个策略是用时间(重新计算这些值两次的时间成本)来换空间(提前存储这些值的内存成本)。原创 2024-02-07 08:02:46 · 1304 阅读 · 0 评论 -
PyTorch 2.2大更新!集成FlashAttention-2,性能提升2倍
PyTorch 2.2将FlashAttention内核更新到了v2版本,不过需要注意的是,之前的Flash Attention内核具有Windows实现,Windows用户可以强制使用sdp_kernel,仅启用Flash Attention的上下文管理器。FlashAttention-2调整了算法以减少非matmul的计算量,同时提升了Attention计算的并行性(即使是单个头,也可以跨不同的线程块,以增加占用率),在每个线程块中,优化warps之间的工作分配,以减少通过共享内存的通信。原创 2024-02-07 07:52:42 · 3448 阅读 · 0 评论 -
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。如果在jupyter中无法释放显存,请重启这个jupyter notebook。原创 2024-02-01 21:55:00 · 5888 阅读 · 0 评论 -
LM Studio-简化安装和使用开源大模型 | OpenAI API 文字转语音本地运行程序分享
这样既节省了调用API的成本,又能发挥大模型的强大能力。,最近用上了LM Studio,对比Ollama,LM Studio还支持Win端,支持的模型更多,客户端本身就可以多轮对话,而且还支持启动类似OpenAI的API的本地HTTP服务器。实测,dolphin-2.6-mistral 7B模型在我Mac M1 Max 32G的电脑上运行速度很快,生成质量不错,而且dolphin是可以生成NSFW内容的。也就是说,如果你之前做过一些应用,用的是OpenAI API的模型,那现在可以非常方便转成本地模型。原创 2024-02-01 11:01:38 · 12930 阅读 · 0 评论 -
动手学RAG:汽车知识问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。然而,这些模型存在一些固有的局限性,如“模型幻觉问题”、“时效性问题”和“数据安全问题”。为了克服这些限制,检索增强生成(RAG)技术应运而生。RAG技术结合了大型语言模型的强大生成能力和检索系统的精确性。它允许模型在生成文本时,从外部知识库中检索相关信息,从而提高生成内容的准确性、相关性和时效性。原创 2024-01-29 14:34:34 · 3775 阅读 · 0 评论 -
最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力
同时,也与其他提示压缩方法进行了对比,如基于困惑度的LLMLingua和基于检索的方法,评估了LongLLMLingua的有效性。工作原理是,利用源文本、压缩文本、生成文本之间的子序列关系,从生成结果中恢复完整的关键名词词组,修复压缩带来的信息缺失,提高结果的准确性。通过利用粗粒度压缩模块计算出的各段落与问题的关联度,对段落进行排序,使关联度最高的段落排在最前面。关联度最高的段落压缩比率最低,依次类推。对更相关的段落使用更低的压缩比率,分配更多的保留词语预算,而对相关性较弱的段落则使用更高的压缩比率。原创 2024-01-28 11:09:50 · 1313 阅读 · 0 评论 -
体验 AutoGen Studio - 微软推出的友好多智能体协作框架
1. AutoGen和AutoGen Studio都是微软研究团队开发的工具,用于创建和管理AI智能体。AutoGen提供底层框架,AutoGen Studio提供直观的用户界面。2. AutoGen Studio的主要特性包括定义和修改智能体、与智能体互动、增加技能、发布会话等。3. 与CrewAI和MetaGPT相比,AutoGen Studio提供了可视化界面,对新手更友好。4. AutoGen Studio可应用于文档管理、客户服务、数据分析、教育培训、创意内容生成等场景,助力任务自动化。原创 2024-01-27 21:18:27 · 7183 阅读 · 0 评论 -
使用 OpenLLM 构建和部署大模型应用
需要注意的是,内存不是连续的,因此需要一个 block table 来存储内存的物理位置和实际序号的映射关系,使得在大模型中看起来是获得了一个逻辑上连续的内存。然而,由于输入可能存在重复计算,例如在输入"我是一只"后,模型返回"我是一只猫",在输入"我是一只猫"时,又返回"我是一只猫,",这导致了 Transformer 框架中有许多重复的计算。此外,在 BentoCloud 上,可以指定扩容的方式,可以分别为 API 指定需要扩容的节点数,或者为每个 runner 指定需要的 GPU 数量或实例数。原创 2024-01-20 14:46:06 · 2488 阅读 · 0 评论 -
L40S解析,同是AD102核心为什么强于A800(A100)近2成性能
一、L40S解析一个朋友测试测试了4张4090和1张l40,性能。发现l40 性能训练大模型性价比超高。我就找了类似文章看看,分享一下。一、L40S解析一张硬件上比较平平无奇,但是性能与售价又惊为天人的显卡引起了我的注意。由于是未发售的企业级显卡因此只能用已有公开媒体数据做个推测。L40S,一张OEM渠道拿货就近1w美刀的被动散热卡,无NVLINK,无PCIE5.0,无HBM3显存,只有一块和4090同样的AD102核心配上几乎没眼看的GDDR6(ECC)显存。原创 2024-01-19 07:21:14 · 6455 阅读 · 1 评论 -
奥数能力金牌级:DeepMind几何推理模型alphageometry登上Nature,代码开源
过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。一般的奥林匹克几何问题基于图表,需要添加新的几何结构才能解决,例如点、线或圆。在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。原创 2024-01-18 11:53:28 · 1501 阅读 · 0 评论 -
语言大模型的分布式训练与高效微调指南
目录收起1 分布式训练2 ZeRO驱动的数据并行3 全分片数据并行4 实现5 高效微调6 实践指南7 关于DeepSpeed和FSDP的更多内容OneFlow编译翻译|杨婷、宛子琳最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpeed和原创 2024-01-18 10:32:12 · 1604 阅读 · 0 评论 -
创建大模型的新方法 - 配比两个模型
现在,创建大模型的新方法还可以使用配比两个模型- 正如炼金术巫师那样。工具1 medusa:Medusa 为 LLM 添加了额外的“头”,以同时预测多个未来代币。当使用 Medusa 增强模型时,原始模型保持不变,只有新的头部在训练过程中进行微调。在生成过程中,这些头每个都会为相应位置生成多个可能的单词。然后使用基于树的注意力机制组合和处理这些选项。最后,采用典型的接受方案从候选者中挑选最长的合理前缀以进行进一步解码。mergekit。原创 2024-01-14 09:50:41 · 1460 阅读 · 0 评论 -
Langchain 代理 (Agents) ,赋能超级 LLMs
我们可以将代理 (Agents) 视为 LLMs 的工具 (Tools)。就像人类使用计算器进行数学计算或在 Google 中搜索信息一样,代理 (Agents) 允许 LLM 做同样的事情。LangChain LLM 代理 (Agents)代理 (Agents) 是可以使用计算器、搜索或执行代码的 LLMs。使用代理 (Agents) ,LLM 可以编写和执行 Python 代码。它可以搜索信息,甚至查询 SQL 数据库。让我们看一个简单的例子。原创 2023-10-11 23:06:41 · 651 阅读 · 0 评论
分享