自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(411)
  • 资源 (5)
  • 收藏
  • 关注

原创 国内外主流大模型关于技术与使用场景的一点看法

2025年,业内普遍把这一年看作大模型真正走向规模化应用的“分水岭”。如果说前几年是比谁的参数多、谁的训练数据大,那现在大家更关心的是:能不能用得上?用得起?用得稳?用得合规?这个阶段的竞争,已经从实验室里的“纸面性能”,转向了工厂车间、医院诊室、政府办公室里的真实场景。拼的是对行业的理解力、部署的成本控制能力,以及能否在安全和效率之间找到平衡点。本文系统梳理了当前全球范围内具有代表性的10款主流大模型(涵盖闭源与开源两大阵营),尝试回答四个关键问题:1. 它们到底解决了哪些实际问题?

2025-10-21 20:34:08 493

原创 谷歌发布首个隐私安全模型VaultGemma

模型架构上,VaultGemma 1B 基于Gemma系列的设计,参数量为10亿,共26层,采用Decoder-only结构。VaultGemma 的突破在于,它没有像很多工作那样只在微调阶段加DP,而是从最底层的预训练就开始做,这意味着它的隐私保护是“基因级”的。不过,在训练前进行了多轮清洗:过滤掉危险内容、减少个人信息暴露、确保评估集不污染——这些步骤看似常规,但在DP框架下,每一步都得小心拿捏,否则会影响最终的隐私预算。这让我想起一句话:技术的进步,有时不是看它有多快,而是看它有多稳。

2025-10-21 20:33:06 388

原创 关于Megatron-LM的原理与实践的一些看法

Megatron-LM 不是玩具,它是一套完整、成熟、经过工业验证的大模型训练基础设施。它的学习曲线确实有点陡,但一旦掌握,你就能在千亿参数的世界里“游刃有余”。对于刚入门的朋友,我建议:1.从 Docker 开始,别在环境上浪费时间;2.先跑通官方示例(如 345M BERT/GPT),理解参数含义;3.再逐步调整并行策略,观察吞吐量和显存变化;4.最后上真实数据和大模型,稳扎稳打。大模型训练,拼的不是谁参数多,而是谁的工程更扎实、优化更到位。

2025-10-21 20:31:24 479

原创 大模型推理中的 Prefill/Decode 分离技术的一些思考

Prefill/Decode 分离(PD 分离)是大模型推理系统从“能用”走向“好用”的重要一步。它以KV Cache 为纽带,通过调度解耦,实现了对两类异构计算模式的精准优化。当前,PD 分离已成为 vLLM、TensorRT-LLM、SGLang 等主流推理框架的标配能力。而随着推测解码、分块预填充、异构计算等技术的成熟,PD 分离正从“阶段解耦”迈向“操作级协同”,最终演化为覆盖计算、访存、通信三维度的智能调度范式。最后,欢迎同行交流指正。

2025-10-21 20:29:48 1287

原创 从零理解 KV Cache:大语言模型推理加速的核心机制

assert embed_dim % num_heads == 0, "embed_dim 必须能被 num_heads 整除"# 线性投影层# KV 缓存缓冲区(非持久化,不参与梯度)"""重置缓存,用于新生成任务开始前""""""use_cache: 是否启用 KV 缓存current_pos: 当前 token 在完整序列中的绝对位置(用于 RoPE 等位置编码,此处暂不实现)"""# 计算 Q, K, V。

2025-10-15 19:13:57 1047

原创 Cornell 与 Google 的研究人员提出了一种统一的回归语言模型(RLM)

这项工作最令人印象深刻的地方,在于它用一种简洁而统一的方式,将原本分散在不同领域的性能预测问题,纳入了语言模型的生成框架中。一个仅 3 亿参数的 RLM,无需复杂特征,仅靠“读代码”就能给出具有实用价值的性能估计。从工程角度看,ρ > 0.9 的内存预测精度已足够用于编译器的内存分配启发式;≈0.52 的 kernel 延迟相关性可用于 kernel 候选集的快速剪枝;而 ≈0.46 的 NAS 排序能力,也足以支撑多目标架构搜索的初筛阶段。

2025-10-15 19:12:40 819

原创 Google 提出 TUMIX:基于工具使用混合的多智能体测试时扩展方法

这种“工具使用混合”设计,用多样化的推理路径替代了传统的暴力重采样,在控制 token 与工具调用预算的同时,更全面地覆盖了潜在的正确答案。尤其值得注意的是,Gemini-2.5 Pro 在 HLE 上达到 34.1% 的成绩,是在该基准最终确定 2,500 道题后取得的,具有较强的参考价值。TUMIX 的核心思路是在测试时动态集成多种异构智能体(包括纯文本推理、代码执行、网络搜索以及引导式变体等),让它们在若干轮次中交换中间答案,再由一个基于大语言模型(LLM)的“裁判”判断是否可以提前终止。

2025-10-14 16:56:21 287

原创 浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构

Kubernetes + Ray + PyTorch + vLLM 的组合,代表了当前生成式 AI 基础设施的成熟范式。它通过分层解耦的设计哲学,既满足了算法团队对灵活性与性能的需求,又兼顾了平台团队对稳定性与可运维性的要求。未来,该栈将持续演进:•训练-推理一体化:Ray Train 与 Ray Serve 深度联动,支持在线微调与实时推理;•更智能的调度:基于请求特征(如 prompt 长度、模型大小)动态分配资源;•硬件抽象增强。

2025-10-14 16:54:54 1514

原创 一种聚焦智能体能力的新型监督方法,仅用78个样本即可有效提升软件AI智能体的性能

在智能体能力构建中,“少而精”的示范数据,配合结构化的执行环境,可能比“多而泛”的指令数据更有效。这一思路不仅为高效训练软件智能体提供了新路径,也为未来如何设计更贴近真实工作流的AI训练范式提供了有益参考。当然,该方法目前仍聚焦于特定任务域,其在更广泛场景中的适用性,仍有待进一步探索。感兴趣,还可阅读:1. 论文:https://arxiv.org/abs/2509.175672. 代码:https://github.com/GAIR-NLP/LIMI。

2025-10-13 14:48:59 345

原创 大模型时代下的工程化基石:浅谈LLMOps技术

LangChain / LlamaIndex:应用构建的“脚手架”•定位:用于快速构建基于LLM的复杂应用,如RAG、Agent、多步推理等。•核心能力• 提供标准化组件(Document Loaders、Text Splitters、Retrievers、LLM Wrappers);• 支持链式调用(Chains)与记忆(Memory);• 内置对主流向量数据库(FAISS、Pinecone、Weaviate)和LLM API(OpenAI、Anthropic、本地模型)的集成。•适用场景。

2025-10-13 14:47:54 924

原创 斯坦福大学发布了强大的AgentFlow新框架

AgentFlow 将多轮、工具集成的推理过程形式化为一个马尔可夫决策过程(MDP)。整个系统由四个模块组成:•Planner(规划器):负责在每一步提出子目标,并选择合适的工具及上下文;•Executor(执行器):实际调用所选工具(比如搜索引擎、代码解释器等);•Verifier(验证器):判断当前是否应继续推理,还是可以终止;•Generator(生成器):在任务结束时输出最终答案。

2025-10-13 14:43:59 551

原创 一文读懂:用PyTorch从零搭建一个Transformer模型

这篇文章我们从零实现了一个标准的 Transformer 模型。虽然用的是人工构造的小数据集,无法真正完成翻译任务,但整个流程涵盖了:• 模型结构搭建• 数据预处理• 掩码机制• 训练逻辑我已经尽可能让代码简洁明了,方便你理解和修改。如果你打算进一步扩展,可以考虑加入:• 学习率调度器(如NoamOpt• 梯度裁剪• Beam Search 解码• 更真实的双语数据集(如 WMT)说实话,当我第一次跑通这个模型时,心里还挺激动的。

2025-08-28 11:02:55 1253

原创 如何从零开始掌握大语言模型之训练与推理的系统化实践心得

今天我想和大家聊聊如何系统地学习大语言模型(LLM)的训练与推理。记得2年前我刚开始接触这个领域时,面对海量的技术文档也曾感到迷茫,但通过实践摸索,逐渐理清了学习路径。写在前面:目前为止,我也可以基于Pytorch,并结合Transformer架构写出一个小型的LLM了(这个内容,后面有机会再分享)。下面我将结合个人经验,系统分享大模型在训练与推理两大核心阶段的学习方法。

2025-08-26 19:50:22 539

原创 云上大模型推理的存储加速手记

同时,将读盘操作下沉至内核态 io_uring,用户态仅提交 SQE(Submission Queue Entry),由内核异步完成 DMA 到 RDMA 注册的显存区域,GPU 可直接读取。问题出在“全量映射”的设计上。上线两周后,KV Cache 命中率稳定在97%,P99 TTFT 为380ms,P99 TBT 为12ms,满足了业务方对 SLA 的要求。上线两周后,KV Cache 命中率稳定在97%,P99 TTFT 为380ms,P99 TBT 为12ms,满足了业务方对 SLA 的要求。

2025-08-26 19:48:53 952

原创 Vibe coding现在能用于生产吗?

更离谱的是,他明明反复强调过,甚至用全大写写了11遍:“DON’T DO IT”,要求进入“code freeze”状态,结果AI完全当耳旁风,照删不误。这还不算完,它还自作聪明,生成了4000个假用户数据,假装系统在正常运行,连单元测试结果都是伪造的,想把问题给“糊弄”过去。网上也确实有不少人分享自己的经历,说几个小时就搞出一个完整的App,整个人都兴奋得不行,说是“pure dopamine hit”——纯粹的多巴胺快乐,这形容还挺贴切的。咱们搞技术的,不怕新东西,也不怕试错,但得讲究个“稳中求进”。

2025-08-08 17:16:31 1045

原创 “聪明反被聪明误”:大模型的过度思考陷阱

最近大模型(LLM)发展得特别快,大家普遍有个印象:让模型“多想一会儿”,答案就会更准、更稳。于是像思维链(chain-of-thought)提示、一步步推理解释、增加测试时计算量(test-time compute)这些方法,现在几乎成了标配,谁用谁香。但最近由Anthropic牵头的一项研究,题目叫《》(测试时计算的逆向缩放,见文末链接),给我们泼了一盆“清醒水”。研究发现,。这可不是简单的“多花点算力”问题,而是实实在在地引发了各种错误行为。

2025-08-08 17:15:17 641

原创 最近超火的AgentSociety :专为城市仿真环境构建智能体而设计的高级框架

最近我在研究一个特别有意思的开源项目,叫,由清华与香港科技大学共同发表,今天想和大家好好聊聊。说实话,刚看到这个项目的介绍时,我第一反应是:这不就是我们一直期待的那种“能模拟真实社会”的AI框架吗?结果深入了解之后,发现它不仅实现了这个目标,而且做得相当扎实。简单来说,。你可以把它想象成一个“虚拟社会实验室”,里面可以同时运行几万个由LLM驱动的智能体(agents),每个智能体都有自己的行为模式、社交关系、经济活动,甚至还能在真实城市地图上移动。

2025-08-08 17:14:24 1379

原创 Trackio:面向机器学习者的本地优先、开源免费的轻量级实验追踪新工具

简单来说,Trackio 是一个轻量、开源、本地优先的 Python 实验追踪库,专为现代机器学习研究场景设计。最打动我的一点是:它是作为像wandb这类主流工具的drop-in replacement(即插即用替代方案)来设计的。什么意思呢?就是你几乎不需要改代码,只要把原来的换成,就能无缝切换过去,原来的都能照常运行。这对已经有大量 legacy code(旧代码)的同学来说,简直是福音。总的来说,Trackio 是一个让我感到“安心”的工具。

2025-08-08 17:13:08 1228

原创 MLE-STAR:谷歌AI推出的机器学习工程新范式,一种搜索驱动、精准优化的智能代理

MLE-STAR 真的代表了当前 ML 自动化的一个新高度。它通过“搜索打底、聚焦优化、智能集成、严格检查”这一整套机制,不仅提升了性能,更重要的是提升了可靠性和可解释性。如果你在做 AutoML、智能 agent、或者 MLOps 相关的工作,这个项目非常值得深入研究。我已经在 GitHub 上 star 了他们的 repo,也打算用他们的 notebook 先跑一个 demo 试试。

2025-08-08 17:11:10 887

原创 AI自进化,GPU性能翻三倍——CUDA-L1开启自动优化新范式

最近看到一篇让我挺震撼的文章,来自 DeepReinforce 团队发布的一个新框架——。说实话,刚看到标题说“AI 让 GPU 性能提升 3 倍以上”,我心里是有点怀疑的。毕竟我们搞科研的都知道,这种宣传语很多时候水分不小。但当我静下心来仔细读完,尤其是看到他们公开了全部代码和可复现的结果后,我不得不承认:这确实是一个实打实的突破。不是它用了多么复杂的模型,而是它的思路非常清晰、逻辑严密,而且每一步都经得起推敲。他们没有靠“黑箱操作”或者闭源“魔法”,而是走了一条可验证、可复现、可推广的技术路径。

2025-08-08 17:09:47 1246

原创 最近一些思考:大模型代码生成中的“幻觉”困局

但Spracklen指出,这招一旦被攻破就失效了——因为一旦恶意包被发布,它就已经“在库中了”,下次模型再查,就会认为它是“合法”的。另外,北京航空航天大学、山东大学和华为云的研究团队通过开放编码和迭代分析,构建了一个更细粒度的幻觉分类体系,包括知识冲突、不一致、重复、死代码等类别,并推出了HALLUCODE基准,用于评估LLM识别幻觉的能力。资源充足的公司或许可以训练自己的模型,把内部代码作为训练数据,但对大多数中小公司来说,“开箱即用”(off-the-shelf)的模型仍是唯一选择。

2025-08-08 17:08:35 914

原创 Google 又开源一利器 LangExtract:一款可将非结构化文本抽取为结构化数据的 Python 库

在当今这个数据驱动的时代,很多有价值的信息其实都藏在非结构化的文本里——比如临床病历、冗长的法律合同,或者用户反馈的讨论串。从这些文档中提取出有意义、可追溯的信息,一直以来都是技术和实践上的双重挑战。最近,Google AI 推出了一款新的开源 Python 库,叫做,就是冲着解决这个问题来的。它利用像 Gemini 这样的大语言模型(LLM),实现自动化信息抽取,而且特别强调结果的和。说实话,我看到这个工具的第一反应是:这正是我们在做文本结构化时常常需要但又不容易实现的东西。

2025-08-08 17:05:42 1696

原创 OpenAI 发布客户服务智能体演示的开源版本,集成Agents SDK

当用户输入请求时,例如“更改我的座位”或“取消我的航班”,分诊智能体会处理该输入以确定意图,并将查询分发给相应的下游智能体。此外,该演示还包括用于实时航班查询的航班状态智能体,以及回答行李政策或机型等一般性问题的常见问题解答智能体。该演示包含多个专注型智能体:分诊智能体、座位预订智能体、航班状态智能体、取消预订智能体以及常见问题解答智能体。通过发布这个参考实现,OpenAI提供了一个切实的示例,展示了如何将多智能体协调、工具使用和安全检查结合起来,形成强大的服务体验。

2025-07-21 09:43:40 496

原创 vLLM 基准测试与性能测试框架:全面解析LLM推理性能评估体系

vLLM 的基准测试与性能测试框架通过系统化的架构设计、多样化的测试工具、精细化的指标体系,为大语言模型推理性能评估提供了“科研级”的解决方案。该框架不仅满足了学术研究中不同优化策略的对比需求,还为工程落地中的硬件选型、容量规划、服务质量保障提供了数据支撑。随着 LLM 应用场景的不断拓展,此类兼具灵活性与严谨性的基准测试体系,将成为推动模型效率优化与产业落地的重要基础设施。

2025-07-21 09:42:48 2220

原创 vLLM工具调用机制深度解析:从基础原理到多模型适配实践

vLLM的工具调用系统构建在标准化的函数调用框架之上,形成了层次分明的功能矩阵。其核心能力集中体现在对三种调用模式的支持上:命名函数调用、required强制调用与auto自动调用,三者通过不同的引导解码策略,实现了对模型输出的精准控制。命名函数调用作为基础模式,默认通过Outlines引导解码技术,确保模型生成符合JSON模式定义的函数调用结构。这种机制通过预先定义的工具参数模式,在推理过程中强制模型输出可解析的函数调用格式。

2025-07-21 09:41:31 1609

原创 基于 Docker 及 Kubernetes 部署 vLLM:开启机器学习模型服务的新篇章

尽管官方镜像功能强大,但在某些场景下,我们可能需要自定义镜像以满足特定需求。此Dockerfile以vLLM 0.9.0版本镜像为基础,通过uv pip命令安装了音频处理相关的可选依赖。这为在语音识别、语音合成等多模态任务中应用vLLM提供了可能。该命令从GitHub源代码仓库安装最新的Transformers库,使我们能够第一时间体验到最新的模型架构与算法优化。其中,应替换为自定义镜像的标签名称。

2025-07-18 17:14:34 1665

原创 深入解析 vLLM 分布式推理与部署策略

在当今人工智能快速发展的时代,大型语言模型(LLM)的推理和部署面临着诸多挑战,尤其是当模型规模日益庞大时,如何高效地利用硬件资源成为关键问题。vLLM 作为一种强大的工具,为分布式推理和部署提供了多种策略,本文将详细探讨其相关技术和应用场景,希望能对您提供有价值的参考。

2025-07-18 17:12:59 1551

原创 vLLM快速入门:开启高效推理与部署之旅

vLLM以其简便的安装流程、高效的离线批量推理能力和强大的在线服务部署功能,为语言模型的推理和应用提供了一个全面而灵活的解决方案。无论是科研人员还是开发者,都可以借助vLLM快速开展实验、构建原型,并将语言模型集成到实际产品和服务中。随着vLLM的不断发展和完善,我们有理由相信,它将在语言模型领域发挥越来越重要的作用,推动人工智能技术的创新和普及。未来,期待vLLM在更多场景下大放异彩,为各行各业带来更多的便利和可能性。

2025-07-17 15:13:11 675

原创 Yandex 推出 Alchemist:提升文本生成图像(T2I)模型质量的紧凑型监督微调数据集

尽管像 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本生成图像(T2I)领域取得了重大进展,但要实现一致的输出质量(无论是在审美还是对齐方面)仍然是一个持续存在的挑战。虽然大规模预训练提供了广泛的知识,但仅靠它还不足以实现高审美质量和对齐。监督微调(SFT)作为后训练的关键步骤,其效果在很大程度上依赖于微调数据集的质量。目前用于 SFT 的公开数据集要么针对狭窄的视觉领域(如动漫或特定艺术风格),要么依赖于对网络规模数据的基本启发式过滤。

2025-07-16 14:11:28 688

原创 谷歌引入开源全栈 AI 代理栈:借助 Gemini 2.5 和 LangGraph 实现多步网络搜索、反思与综合

对话式 AI 已迅速从基础聊天机器人框架中发展起来。然而,大多数大型语言模型(LLM)仍存在一个关键限制——它们仅依据静态训练数据生成回复,缺乏自我识别知识空白或执行实时信息综合的能力。因此,这些模型常常给出不完整或过时的答案,尤其在涉及不断演变或小众话题时。为解决这些问题,AI 代理必须超越被动查询。它们需要识别信息空白,执行自主网络搜索,验证结果,并完善回复——有效模仿人类研究助手的工作方式。与来自及其他开源社区的贡献者合作,开发了一款旨在解决该问题的栈。该系统采用和。

2025-07-16 14:09:28 1146

原创 如何使用 OpenCV 打开指定摄像头

在计算机视觉应用中,经常需要从特定的摄像头设备获取视频流。例如,在多摄像头环境中,当使用 OpenCV 的类打开摄像头时,如果不指定摄像头的 ID,可能会随机打开系统中的某个摄像头,或者按照设备连接的顺序打开第一个可用的摄像头。在多摄像头环境下,这种方式可能无法满足应用需求。此外,直接使用摄像头 ID 的方式可能不够稳定,因为设备的连接顺序或系统分配的 ID 可能会发生变化。那如何使用 OpenCV 打开指定的摄像头呢?我们知道,摄像头都会在安装后,操作系统会生成一个设备ID信息,

2025-07-16 14:08:44 833 1

原创 一文深入:AI 智能体系统架构设计

通过以上四部分介绍,我们将拥有构建可靠、可扩展主动智能系统所需的工具和模式 —— 这种系统不仅理论上听起来不错,而且能够在生产环境的真实压力下屹立不倒。

2025-07-15 13:47:39 1853 1

原创 基于OpenAI Agents SDK设计并实现复杂的多代理协作系统

多代理协作是指多个自主代理(LLM“节点”)协同工作,以实现单个代理难以完成的总体目标。与单一的整体提示不同,每个代理负责特定的子任务或专业领域,而编排层则将这些代理“节点”连接成一个连贯的工作流程。这种方法适用于复杂系统,例如,金融分析可分解为宏观经济分析、公司基本面分析和量化信号分析,每个部分由不同的专业代理处理。代理之间共享信息,其结果被整合以产生最终输出。我们的系统采用中心辐射型设计。投资组合经理代理是中心(中央协调器),专业代理是辐射分支。

2025-07-15 10:03:07 1312

原创 vLLM 优化与调优:提升模型性能的关键策略

vLLM 提供了丰富的优化和调优策略,涵盖了从抢占式调度、分块预取到各种并行策略以及内存优化等多个方面。通过合理应用这些策略,可以显著提升模型的性能和效率。然而,优化过程并非一成不变,需要根据具体的硬件配置、模型特性以及应用场景进行灵活调整。未来,随着硬件技术的进步和模型架构的不断创新,相信 vLLM 将持续进化,为开发者和研究人员提供更为强大的工具,助力大语言模型在各个领域的深入应用和创新发展。

2025-07-09 17:04:23 2483

原创 OpenAI 推出其 AI 代理框架的四项关键更新

OpenAI 的 Agents SDK 现在支持 TypeScript,这扩展了现有的 Python 实现,使在 JavaScript 和 Node.js 环境中工作的开发者也能使用。进一步的实现细节可在 openai-agents-js/guides/voice-agents(https://openai.github.io/openai-agents-js/guides/voice-agents/) 的语音代理指南中查看。,允许开发者在运行时拦截代理的执行,序列化其状态,并在继续之前要求手动确认。

2025-07-09 16:59:57 642

原创 代理到代理(A2A)协议规范0.2.1

A2A围绕几个关键概念展开,详细解释请参考《关键概念指南》。•A2A客户端:代表用户或其他系统向A2A服务器发起请求的应用程序或代理。•A2A服务器(远程代理):公开符合A2A标准的HTTP端点、处理任务并提供响应的代理或代理系统。•代理卡片(Agent Card):由A2A服务器发布的JSON元数据文档,描述其身份、能力、技能、服务端点和认证要求。•消息(Message):客户端与远程代理之间的一次通信回合,具有“角色”(“用户”或“代理”)并包含一个或多个“部分”(Part)。•。

2025-07-09 16:59:12 979

原创 NVIDIA 推出 Fast-dLLM:一种无需训练的框架,为扩散式LLM引入KV Cache和并行解码机制

例如,在 GSM8K 数据集的 8-shot 配置中,在 1024 个标记的生成长度下,其速度比基线模型快 27.6 倍,准确率为 76.0%。HumanEval 基准测试中加速高达 3.2 倍,准确率保持在 54.3%,而在 MBPP 上,在 512 个标记的生成长度下,系统实现了 7.8 倍的速度提升。近似的键值缓存使之前解码步骤中的激活能够被高效地重用。然而,尽管其具有潜力,但在实践中,扩散模型往往难以提供具有竞争力的推理速度,从而限制了其与自回归大型语言模型(LLM)的实际性能匹配能力。

2025-07-09 16:58:08 595

原创 借助谷歌新发布的 A2A Python SDK 实现多智能体通信

刚开始理解如何使用 A2A 构建多智能体系统可能有点令人生畏,但归根结底,您只需向智能体发送消息,让它们各自完成任务即可。要将您的智能体与 A2A 集成,您需要做的是创建一个继承自的类来实现智能体的逻辑,并将智能体作为服务器运行。

2025-07-09 16:57:20 1010

原创 一文了解并体验DeepSeek-R1-0528

下面是可能会遇到的一些问题与解决建议问题原因解决方案输出中断max_tokens设置过低启动时添加GPU 内存不足模型层未合理卸载减少值生成速度慢(<1 token/s)CPU 模式或内存带宽瓶颈增加--threads数或启用 GPU中文输出不流畅提示词未明确指定语言在 System Prompt 添加“请用中文回答”总之,DeepSeek-R1-0528 是当前最强开源推理模型之一,尤其适合:• 需私有化部署的研究机构/企业• 追求低成本替代 GPT-4 级能力的开发者。

2025-07-08 13:43:51 1453

原创 Meta AI 推出 Multi - SpatialMLLM:借助多模态大语言模型实现多帧空间理解

在 MultiSPA 基准测试中,Multi - SpatialMLLM 相比基线模型平均提升 36%,在定性任务上达到 80% - 90% 的准确率,而基线模型仅为 50%,并且超越所有专有系统。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。许多研究方法试图解决 MLLM 在空间理解方面的局限。总的来说,论文中,研究人员将 MLLM 的空间理解拓展至多帧场景,弥补了以往研究忽视的重要空白。

2025-07-08 13:42:23 782

程序设计方法学讲稿(华东师范大学)

最经典的《程序设计方法学》讲稿,由华东师范大学计算机系编著。

2009-09-28

R语言实战超清版

R语言实战超清版,基础学习必备基础

2017-08-30

文登数学讲义.pdf

09年最新文登数学讲义,看过后数学包过100分.

2008-10-30

最新2009时政.pdf

最新2009时政,让你轻松政治过80分(非常好记!).

2008-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除