- 博客(509)
- 资源 (1)
- 收藏
- 关注
原创 DeepSeek 的新年炸弹:为了搞 V4,他们把 Transformer 的地基给撬了
DeepSeek V4 真的在憋大招。你看,他们先是搞定了 MoE(混合专家),现在又把最基础的残差连接给重构了。这说明他们不再满足于在 Transformer 的原有框架上修修补补,而是开始动底层架构了。实验结果也证明了这点:27B 的 mHC 模型,在 BBH、GSM8K 这些硬核测试集上,全面超越了标准版模型。而且他们在 3B、9B 模型上都试过,这套方法是可以 Scale up 的。DeepSeek 这次是用最硬核的数学约束,解决了最狂野的模型扩张问题。
2026-01-03 23:24:32
888
原创 2026年:30年来最好的创业时代
氛围营销成为新营销,用AI代理做个性化触达,效果越来越好,这就像2005年入场社交媒体。传统SaaS正在崩塌,曾经需要30人团队和50万美元的软件,现在1人+AI订阅就能复刻。原型制作近乎即时,用Lovable等工具,几天就能测试想法,MVP速度基本是每周一个。但现在,一个有清晰愿景的创始人,六个月能建成以前需要数年的东西。这个时刻不会永远持续,市场会适应,巨头会反应,窗口会关闭。Greg Isenberg,36岁连续创业者,卖掉3家公司,帮助融资数十亿美元,分享了他眼中2026年创业的20个历史性机遇。
2026-01-03 12:21:52
216
原创 继DeepSeek后,量化巨头九坤推40B开源硬刚Claude 4.5,实测结果却反转
不是“神车”,是辆“概念车!Benchmarks 高不代表实际体验一定完美。毕竟现在大家都在针对榜单优化。回到开头的问题:它能平替 Claude 4.5 吗?目前的结论是:不能。IQuest-Coder-V1 更像是一辆极其激进的“概念车”。证明了“Loop架构”和“代码演化训练”这条路是通的,上限很高。极高的推理延迟、不均衡的能力分布,让它目前很难成为你的主力生产力工具。最终建议:别折腾了,继续用 DeepSeek V3 或 Qwen2.5-Coder 32B,那是目前稳稳的幸福。
2026-01-03 12:13:35
979
原创 豆包手机遭全网“绞杀”:旧贵族们到底在怕什么?
回到开头,豆包被围剿,看似悲壮,实则是一种荣耀。只有真正的革命者,才会招致旧势力如此疯狂的围堵。当我们回顾历史,蒸汽机冒出的黑烟曾被视为魔鬼的呼吸,交流电曾被污蔑为杀人的工具。但最终,火车跑遍了大地,电灯照亮了长夜。今天的互联网大厂们,手里紧紧攥着“APP 围墙”这块旧时代的打火石,试图烧毁 AI Agent 这根刚刚架好的电线。但他们忘了,阻挡潮水的唯一结果,就是被潮水淹没。对于我们普通用户而言,请多一点耐心。不要因为现在的 AI 囿于现状会被封杀就嘲笑它。因为你所见证的,正是第四次工业革命的序章。
2025-12-14 00:20:07
856
原创 揭秘 Chat Template 如何驱动 AI Agent?以Qwen3为例详解LLM的聊天模板
bos_token: null (没有使用特殊的文档开始符)eos_token<|im_end|>(作为每个对话回合的结束符)pad_token: 对话回合开始<|im_end|>: 对话回合结束非特殊但关键的控制 Token (在词汇表中定义): 包裹模型生成的工具调用请求。: 包裹外部工具返回的执行结果。<think></think>: 包裹模型的内部思考或推理过程。
2025-11-12 23:08:05
887
原创 一文秒懂LLM、RAG、Agent的区别!
你是不是也觉得,现在AI圈的概念有点乱?LLM、RAG、AI Agent……每个都能讲半天,但真要问它们到底啥关系,很多人就懵了。有人说RAG能替代LLM,有人说Agent才是未来,还有人觉得它们是竞品。就像人的大脑、记忆和行动力,缺了哪个都不完整。更多AI相关欢迎关注微信公众号"小窗幽记机器学习"~
2025-11-09 18:45:08
430
原创 Agent上下文压缩之战!阿里AgentFold v.s.字节FoldAgent
AgentFold 侧重于通过类人类的认知整合(回溯性整合) 来设计一个在每个步骤进行上下文策展的 LLM Agent,并主要依赖 SFT 来学习这种双尺度折叠策略。FoldAgent 则侧重于通过程序化的分支和返回工具来构建一个上下文折叠框架,并利用强大的强化学习方法(FoldGRPO)和精细的过程奖励来训练Agent有效地执行任务分解和上下文管理。AgentFold 就像是一位时刻反思的日记作者,在写下最新条目后,决定是细致总结上一条,还是将前几页内容抽象成一个章节标题;
2025-11-02 19:55:35
1173
原创 阿里开源最强GUI Agent,操作App从此告别“一根筋”
你有没有过这样的经历:满怀期待地对你的智能助手说,“帮我把刚才那张黄昏的照片发给我妈”,结果它却一脸无辜地回答“对不起,我没听懂”?或者,你让一个自动化脚本“点击确认按钮”,结果软件一更新,按钮从“确认”变成了“好的”,脚本立刻“罢工”。这些让人哭笑不得的场景,暴露了当前AI在理解和操作我们日常软件界面时的一个核心困境:它们太“死板”了。它们能精确执行“点击屏幕坐标(350, 800)”这样的指令,却很难理解“点击那个红色的叉叉”这种充满人类智慧的模糊语言。
2025-11-02 10:41:27
1030
原创 RL系列 | RL数据合成的春天!开源Webscale-RL详解
Webscale-RL系统地将万亿级预训练文档转换为数百万个多样化且可验证的问答对,从而使 RL 训练能够达到预训练的规模。研究人员声称,使用 Webscale-RL 数据集进行 RL 训练在各种基准测试中显著优于持续预训练等基线,并且在数据效率方面提高了 100 倍,为开发更强大、更高效的 LLMs 提供了一条途径。该数据合成pipeline通过数据过滤、领域分类、多重“角色”分配和质量检查等步骤来确保生成的数据集在规模和多样性上都具有高保真度。
2025-10-26 18:34:31
812
原创 WebAgent如何压缩上下文?阿里ReSum范式曝光:周期性“历史重置”,打破上下文长度魔咒,实现无限探索!
ReSum旨在解决基于大型语言模型(LLM)的WebAgent在执行长周期搜索任务时遇到的上下文窗口限制问题。ReSum通过周期性地调用摘要工具来压缩不断增长的交互历史,将其转化为紧凑的推理状态,从而实现无限探索。为了使智能体适应这种基于摘要的推理模式,作者们设计了ReSum-GRPO强化学习算法,该算法通过分割长轨迹并广播轨迹级别的优势来进行训练。实验结果表明,与传统的 ReAct 范式相比,ReSum 在训练自由和强化学习两种设置下,都能在多个挑战性基准测试中显著提升性能,同时还开发了专用的。
2025-10-26 18:32:02
1070
原创 强化学习RL系列 | 白话时序差分算法
总的来说,时序差分(TD)算法是一种非常强大和核心的强化学习方法。它通过“边走边学,小步快跑,不断修正”的策略,解决了在未知环境中高效学习决策的问题。它虽然有“容易被自己的错误猜测带偏”的缺点,但其高效、灵活的特性使其成为了强化学习领域的基石之一。
2025-10-06 23:46:47
441
原创 推理模型实战| 如何训练自己的R1模型(上篇):GRPO前奏预微调SFT
Unsloth项目地址:https://github.com/unslothai/unslothUnsloth 是一个专门为大型语言模型(LLM) 微调(fine-tuning) 设计的开源加速框架。它旨在通过优化训练过程,显著提高微调速度并降低内存消耗,同时保持模型精度的不变。Unsloth 支持多种流行的LLM,如Llama、Mistral、Gemma 等,并与Hugging Face Transformers 库无缝集成。高效的微调性能。
2025-07-03 09:39:54
1102
原创 端侧多模态|谷歌开源Gemma 3n 赋能移动终端全模态智能
Gemma 3n现已在最常用的开源库中全面可用,包括transformers & timm、MLX、llama.cpp(仅限文本输入)、transformers.js、ollama以及Google AI Edge等。此次发布包含了两种模型尺寸,每种尺寸都有基础版(base)和指令跟随版(instruct)两种变体。这些模型的命名遵循非标准约定,分别为和,其中的“E”代表“Effective”(有效)。其真实参数量分别为5B和8B,但由于内存效率的提升,它们在VRAM(GPU内存)中仅需2B和4B。
2025-06-29 18:31:11
1557
原创 AI入门 | 计算自注意力时QK^T的计算复杂度是多少?
对于一个(a, b)矩阵和一个(b, c)总乘法运算量为a * b * c次。总加法运算量为次。在衡量算法复杂度时,我们通常使用Big O表示法,或者计算总的浮点运算次数 (FLOPs)。总FLOPs≈ 总乘法次数 + 总加法次数时间复杂度 (Time Complexity)当abc都很大时,常数2和-1可以忽略。因此,计算复杂度为O(abc)。
2025-06-29 14:31:22
1077
原创 LLM从0到1 | 从输入维度变化理解Transformer:以Encoder为例
本文将从维度变换的视角,详细剖析BERT中输入序列的处理流程——从原始文本输入到Encoder层输出的全过程。通过追踪这些维度的变化,希望有助于更好地理解BERT模型(即Transformer的Encoder部分)的内部运作机制。
2025-06-26 19:03:00
657
原创 生成1个token,需要多少KV Cache开销?
MHA、MQA、GQA和MLA这几种都是Transformer架构中注意力机制的不同变体,主要区别在于如何处理键值对。标准的多头注意力机制,每个注意力头都有独立的查询(Q)、键(K)、值(V)矩阵。计算复杂度高但表达能力强,是原始Transformer使用的方法。多个查询头共享同一组键值对,即只有一个K和V矩阵,但有多个Q矩阵。这大幅减少了KV缓存的内存占用,提高了推理速度,但可能会损失一些表达能力。MHA和MQA的折中方案,将查询头分成若干组,每组内的头共享同一组键值对。
2025-06-26 18:55:33
860
原创 模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务
简介为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口,包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。
2025-05-04 17:10:18
1618
原创 微调大模型需要多少GPU显存?
起点估算:全参数微调 (FP16, AdamW): 考虑~20XGB 或更多。LoRA 微调 (FP16): 考虑GB,主要看基础模型2XGB + 激活。QLoRA 微调 (4-bit base, LoRA): 考虑GB,主要看基础模型~0.5XGB + 激活。关键变量batch_size和对激活值影响巨大。如果显存不足,优先减小这两个值,或者加强梯度检查点的使用。梯度检查点: 对于大模型微调(无论是全参数还是 LoRA),几乎是必需的技术,用计算换显存。优化器。
2025-05-04 17:07:55
1983
原创 LLM推理中的强化学习及其实战:以GRPO为例(上篇)
如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散度惩罚项。这一项是用以比较当前策略(正在训练的模型)与原始SFT模型。
2025-04-26 21:22:19
1378
原创 原生GPT-4o生图OpenAI官方透露了哪些信息?
OpenAI于2025年3月25日发布了GPT-4o(GPT-4o Native Image Generation) 系统卡的增补内容,重点介绍了其全新的原生图像生成方法——4o图像生成。更重要的是,由于4o图像生成原生嵌入在全能的GPT-4o模型架构深处,它能够利用其全面的知识以细致入微且富有表现力的方式实现这些功能,创造出既美观又实用的图像。赋予了它强大的图像处理和理解能力。通过图像到图像的转换、照片级真实感和精确的指令遵循,4o图像生成展现了广泛的应用潜力。4o图像生成的新能力也带来了新的安全风险。
2025-04-20 11:07:43
1116
原创 实测Llama 4,究竟是王者归来,还是廉颇老矣?
相比于之前的模型,Llama 4系列模型是混合专家架构(MoE)的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。1、。具有16个专家,170亿激活参数,总参数量109B,支持10M长度的上下文(即1000 万上下文窗口)。在广泛报告的基准测试中优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Scout号称是同类产品中最好的多模态模型。
2025-04-20 11:06:20
13840
原创 端侧多模态 | “袖珍战神“SmolVLM技术报告深度解读
SmolVLM是一系列为资源受限环境设计的紧凑型多模态模型,其核心在于通过创新的架构设计、高效的token化策略和优化的数据管理,实现了在极低计算成本下的卓越性能。研究者们系统地探索了影响小型视觉语言模型效率和能力的多个因素,包括编码器与语言模型的参数分配、上下文长度、视觉token压缩以及针对图像和视频数据的特定处理方法。实验结果表明,SmolVLM在多个视觉语言理解和视频理解基准测试中表现出色,甚至超越了一些参数量远大于它的大型模型,这证明了精心设计的轻量级模型在资源受限的应用场景中具有巨大的潜力。
2025-04-19 21:43:31
1446
原创 字节开源地表最强GUI Agent:UI-TARS
UI-TARS是一个原生的 GUI Agent模型, 该模型仅以屏幕截图作为输入,并执行类似人类的交互操作(例如,键盘和鼠标操作)。与依赖于经过大量封装的商业模型(例如 GPT-4o)以及专家精心设计的提示和工作流程的现有Agent框架不同,UI-TARS 是一个端到端的模型,其性能超越了这些复杂的框架。实验表明,UI-TARS 在 10 多个 GUI Agent 基准测试中取得了SOTA。
2025-04-19 21:40:47
3245
原创 推理模型专题 | Search-o1技术解读-智能RAG助力O1推理模型突破知识盲区
Search-o1旨在解决大型推理模型(LRMs)在推理过程中常遇到的知识不足问题。该框架通过集成agentic检索增强生成(RAG)机制和文档推理模块,使模型能够在需要时动态检索外部知识,并将其无缝整合到推理过程中。实验表明,Search-o1在科学、数学和编码等复杂推理任务以及开放域问答基准上都取得了显著的性能提升。Q1:这篇文章想要解决什么问题?A1:论文主要解决大型推理模型(LRMs)在进行复杂推理时面临的知识不足问题。
2025-01-19 21:22:44
1136
原创 推理模型专题 | 开源类O1:Marco-o1技术全面解读
阿里国际数字化商业团队(非Qwen团队)提出Marco-o1,该模型不仅关注数学、物理和编程等具有标准答案的学科领域(这些领域非常适合强化学习),还更加注重开放性解决方案。Marco-o1旨在解答一个问题:"o1模型能否有效地推广到那些缺乏明确标准且难以量化奖励的更广泛领域?Marco-o1采用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新的推理动作策略,专门针对复杂的现实问题求解任务进行了优化。基于CoT数据的微调。
2025-01-19 14:22:35
1294
原创 从哈佛取消30门文科课说起:AI时代,我们还需要文科专业吗?
这意味着不必通过传统的文科专业教育,也能培养深厚的人文素养。随着AI技术的发展,纯粹的人文学科专业可能难以适应未来就业市场的需求。总的来说,在AI时代,我们需要的是将人文素养融入各个专业而非孤立的文科教育。从教育资源配置的角度看,单独设置文科专业的投入产出比正在降低。将有限的教育资源更多投向STEM学科,同时在通识教育中加强人文素养培养,可能是更优的选择。在人工智能时代的发展背景下,文科专业的存在价值确实需要重新思考。值得注意的是,很多在人文领域做出重要贡献的人,并非科班出身。3、AI时代对人才的新要求。
2025-01-04 16:44:29
1102
原创 Agent系列:AppAgent v2-屏幕智能Agent(详解版)
随着多模态大语言模型(MLLM)的发展,视觉智能体(Agent)正逐渐在软件界面中,尤其是图形用户界面(GUI)中,发挥重要作用。本文设计了一个专为移动设备打造的智能体框架,该框架基于大语言模型,能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间,增强了其在不同应用程序中的适应性,支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段:探索(Exploration)和部署(Deployment)。
2025-01-01 16:59:33
2140
原创 Agent系列:多模态智能体AppAgent v2助力AI手机(简化版)
AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制,显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现,并展示了其在未来智能体研究中的巨大潜力。
2025-01-01 16:56:43
1711
原创 AI手机新纪元:AutoGLM开启后APP时代下的挑战与机遇
山黛远,月波长,暮云秋影蘸潇湘。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖热干面的小女孩。近日,国内知名AI公司智谱在中国计算机大会(CNCC)上发布的AutoGLM引发了业界广泛关注。这款突破性的AI智能体产品能通过语音指令理解用户意图,模拟人类操作手机,自动完成从网页浏览、商品购物到社交媒体互动等多种复杂任务。同期,Anthropic公司推出的Claude 3.5系列模型(Sonnet和Haiku)也引入了computer use功能,展现了AI操控设备的新能力。
2024-12-08 19:50:23
1054
原创 万字长文细说端侧大模型进展(下篇):AutoGLM类Agent隐私安全有感
本综述全面阐述了设备上语言模型(LLMs)的最新进展,重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。这些进步推动了复杂语言模型在资源受限设备上的部署,为各行业提供了更好的数据保护、低延迟和普及先进AI能力的机会。从云端到边缘的LLM部署转变标志着人机交互范式的革新,开辟了个性化、情境感知和即时AI体验的新途径,促进了各领域的智能化发展。然而,设备上LLM仍面临平衡性能与资源限制、确保模型鲁棒性及开发持续学习机制等挑战。此外,能源效率、可持续性和负责任的部署问题也日益突出。
2024-12-08 19:46:20
2032
原创 万字长文梳理端侧大模型进展(上篇):由AutoGLM类Agent隐私安全有感
大型语言模型(LLMs)的出现彻底改变了自然语言处理(NLP)领域。由于其在边缘设备上的低延迟、数据本地化和个性化用户体验的优势,越来越多的研究关注在资源受限环境中部署LLMs的挑战与解决方案。本文综述了设备端语言模型的发展,包括高效架构设计、模型压缩技术及硬件加速策略,并通过案例研究展示其实际应用及潜在优势。
2024-12-07 15:27:06
1703
原创 全面深入解读Movie Gen技术原理5部曲:4-精准视频编辑
随着视频内容的普及,对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向,旨在让用户通过自然语言简单快速地编辑视频。然而,受限于有监督视频编辑数据的稀缺,高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。Movie Gen Edit 的训练基于两个假设:显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频,而非仅处理有限特征。收集大规模视频编辑监督数据困难,导致训练-测试场景差异。
2024-12-07 15:17:37
1151
原创 腾讯Hunyuan3D-1.0:快速生成高质量3D资产的秘诀大公开!
多视图生成模型:通过并行生成多视图图像来增强3D信息的理解,使用自适应分类器自由指导(CFG)来平衡不同视图的可控性和多样性。稀疏视图重建模型:利用不完全一致的多视图图像恢复底层3D形状,结合未校准的条件图像作为辅助输入以补偿生成图像中未见部分。以下简单介绍腾讯的Hunyuan3D-1.0框架,该框架统一了文本到3D和图像到3D生成的流程,能够在短时间内生成高质量的3D资产。统一框架:Hunyuan3D-1.0是一个统一的框架,支持高质量的文本和图像条件下的3D生成。
2024-11-15 20:55:41
936
原创 全面深入解读Movie Gen技术原理(5部曲):个性化视频生成(3)
本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构,通过将个性化信息整合到视频生成过程中,实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破,还具有广泛的实际应用前景,为个性化高质量视频生成开辟了新的可能性。后续将进一步解读Movie Gen的视频精准编辑和声音生成。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号Movie Gen在个性化视频生成领域取得了显著进展。
2024-11-09 18:56:03
1317
原创 万字长文深度解读Movie Gen技术原理(5部曲):图像&视频联合生成模型 (2)
今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率优化等。此外,还详细介绍了预训练数据的准备过程,包括视觉筛选、运动筛选、内容筛选和字幕生成等步骤。整体上,全面深入地解析了Movie Gen的核心技术原理。后文将从个性化视频生成、精准视频编辑、音频生成这3个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号。小窗幽记机器学习。
2024-11-09 18:27:13
1698
原创 全面深入解读Movie Gen技术原理(5部曲):概述 (1)
研究发现,通过扩大训练数据、计算资源和模型参数,使用Flow Matching训练的Transformer模型可以生成高质量的视频或音频。Meta据此打造Movie Gen的2种基础模型:Movie GenVideo和Movie GenAudio。Movie Gen Video和Movie Gen Audio模型参数量分别是300亿和130亿。
2024-10-07 16:55:32
2593
原创 突发!Meta重磅发布Movie Gen入局视频生成赛道!
作为最先进和沉浸式的讲故事模型套件,Movie Gen具备四种核心功能:视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节,但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节,感兴趣的小伙伴可以留意下。
2024-10-05 15:18:27
1014
原创 LLM端侧部署系列 | PowerInfer-2助力AI手机端侧部署47B大模型 (论文解读)
为啥大模型要做端侧部署?除了常说的端侧数据安全隐私,其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型(LLM)而设计的框架,特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言,在PowerInfer-2中设计多态神经元引擎,能够根据LLM推理的不同阶段自适应采用不同的计算策略。此外,引入了分段神经元缓存(neuron caching) 和细粒度神经元集群级流水线。
2024-10-05 14:13:42
2497
原创 LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署
近日,上海交大为大模型能够在智能手机上部署提出PowerInfer-2,该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型,在inference的时候每秒可生成11.68个token,这比其他最先进的框架快22倍。即使是使用7B模型,PowerInfer-2只需将50%的FFN权重放置在手机上,在7B这个模型参数上,仍然是目前最快的推理框架!更多大模型相关,如模型解读、模型微调、模型部署、推理加速。
2024-10-04 12:13:56
1850
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅