- 博客(1029)
- 收藏
- 关注
原创 大语言模型周报
SWE-PolyBench:一个用于代码智能体的仓库级别评估的多语言基准测试(SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents)
2025-06-14 10:45:00
699
原创 官宣|Milvus 2.6正式开源:内存减少 72%,速度比ES快4倍
**好消息,Milvus 2.6于今日正式上线!**(目前是RC版,正式版预计在7月推出)功能上,Milvus 2.6 延续并加强了 2.5 版本引入的**全文检索**功能,进一步强化了搜索功能,并整体**升级底层架构**以满足更严苛的性能、成本与规模需求。
2025-06-13 23:09:23
505
原创 最新综述 | 北航新作: 首篇遥感时空视觉语言模型综述, 附Github资源合集
文章首先介绍遥感多时相图像解译的重要性,指出传统的二值或语义变化检测难以提供人类可读的语义信息。文章指出遥感时空视觉语言模型(RS-STVLMs)通过融合图像与语言,实现对变化的语义解释与互动问答,为遥感时空理解开辟了新路径。
2025-06-12 21:31:41
597
原创 CVPR2025 | EarthDial: IBM 提出多模态多时序遥感大模型, 及千万级遥感图文指令数据集
作者构建了一个大规模的遥感图文指令数据集 EarthDial-Instruct,共包含 1111万条指令问答对,涵盖多种遥感传感器、分辨率和时间序列。
2025-06-12 21:28:55
589
原创 大模型并行训练的一些知识——极简版
Token streaming 是服务器在模型生成token时逐一返回token的模式。这允许向用户显示渐进生成,而不是等待整个生成结束。Streaming是终端用户体验的一个重要方面,因为它减少了延迟,这是流畅体验的最关键方面之一。
2025-06-12 21:27:28
562
原创 聊聊大模型推理系统之 DynaServe:LLM 服务吞吐量提升 3.07 倍背后的三大创新
在大语言模型(LLM)广泛应用的当下,如何在保证低延迟的前提下最大化吞吐量成为行业亟待解决的问题。近段时间,由新加坡国立大学(NUS)和中国科学技术大学(USTC)联合推出的**DynaServe**系统,成功破解了这一难题,实现了高达**3.07 倍**的服务容量提升。
2025-06-11 20:07:48
644
原创 万字长文详解|DLRover LLM Agent:大模型驱动的高效集群资源调优
蚂蚁集团的日常业务中,搜推广模型有着广泛的应用。而这些模型大多数是通过 Parameter Server 训练任务生成的。日常有大量推荐模型训练任务需要消耗极为可观的 CPU 资源。通常这些训练任务由用户配置后提交到集群运行。但是,相当部分提交的任务存在资源配置不当的问题,从而导致了难以忽视的问题:
2025-06-11 20:07:01
811
原创 企业级大模型应该选择 Prompt、RAG、微调还是从零训练?——生成式AI最佳实践全指南
生成式AI技术发展迅猛,企业在应用这类技术以解决业务难题时,面临着诸多方案的选择。当前主流的实现途径有:
2025-06-11 20:05:00
811
原创 大模型Agent的下一阶段:可自我进化的AI-Agent
在人工智能以前所未有的速度席卷全球的今天,似乎每天都在见证奇迹。从大模型的对答如流,到Sora的以假乱真,再到DeepSeek的深度思考,大语言模型(LLM)在模拟人类语言和创造力方面,已经达到了令人惊叹的高度。而现在研究者们正在探索一个更加令人兴奋的前沿领域:**让AI学会自我反思、自我改进,甚至重写自己的"思维逻辑**"。
2025-06-11 20:03:37
918
原创 Theory of Agent:构造知行合一的智能体
Agent 为何需要「认知哲学」?当前AI(如ChatGPT)已能自主规划旅行、科研协作,但**根本矛盾**暴露:
2025-06-10 20:38:39
876
原创 Chess.com:如何通过人机共建生态,在AI时代年入过亿美元?
在AI冲击一切、机器统治“最优解”的年代,Chess.com的故事恰恰提供了一个逆流而上的注脚:当计算能力早已超越人类直觉,为什么还有数以百万计的人甘愿在棋盘上一试高下?这不只是对传统的执着,而是对“人类式思考”的一次集体捍卫。国际象棋并没有被AI的胜利终结,反而因AI而重生——以算法为镜,人类反而更懂得欣赏策略、心理、风格与胆识。
2025-06-10 20:37:57
757
原创 构建自我进化的知识图谱:AI Agent系统赋能新时代
在数字化浪潮日益澎湃的当下,数据领导人正行走在锐变与革新的钢丝绳上。一方面,科技日新月异,业务与技术的模式远非2024年初可同日而语,从编码、管理到日常操作,变化的步伐不断加快。另一方面,传统遗留系统、碎片化平台与转型团队之间的落差与阻力愈发明显,需要在新旧系统交锋中追赶变革步伐。
2025-06-10 20:34:53
798
原创 构建可调用外部工具的AI助手:LangChain函数调用与API集成详解
聚焦于如何通过LangChain创建和管理自定义工具(Tool),并将其与外部API服务无缝集成,从而搭建更加复杂且功能丰富的应用场景,例如实时天气查询、维基百科内容搜索以及第三方API服务的调用与管理。
2025-06-10 20:34:06
589
原创 告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。
2025-06-09 21:11:39
746
原创 模型又更新了!阿里发布Qwen3-Embedding系列模型
今天阿里发布了Qwen3-Embedding系列模型,包括Qwen3-Embedding和\**Qwen3-Reranker。专为文本嵌入和排序任务设计,基于 Qwen3 基础模型进行训练
2025-06-09 21:07:55
1028
原创 个人或者“一人公司”搭建AI知识库的三种部署方式分析
我们已经适应了有问题就向豆包、DeepSeek等AI助手提问的方式。一般的问题,大模型都能很好的回答;但在一些专业垂直门类方向的深度问题,通用大模型受限于其训练数据都是公开网络所获取的公开数据,以及训练截止时间早所导致的知识未更新等问题,这就使得AI的回答在专业度和时效性方面有所欠缺。这个时候,我们一般使用自建AI知识库来弥补这个知识空白。就好像用自建的知识库为AI大模型挂接了一个外脑一样。这个问题拆解开就涉及到知识数据的准备,AI算力的准备,以及两者的匹配设置等工作。
2025-06-09 21:06:32
905
原创 大厂出手了,微软推出 SRE agent 做故障定位
微软最近推出了一个名为 Azure SRE Agent 的新工具,这是一款 AI 驱动的工具,可以更轻松地维持生产云环境。SRE Agent 有助于快速有效地响应事件,减轻管理生产环境的工作量。总体而言,它可以延长服务正常运行时间并降低运营成本。SRE agent 利用 LLM 的推理功能来识别快速根本原因分析和问题缓解所需的日志和指标。其高级 AI 功能可转变 Azure 中的事件和基础结构管理,使工程师能够专注于更有意义的工作。
2025-06-08 10:45:00
928
原创 如何使用Ollama在本地运行Qwen3并支持MCP和工具使用
**Qwen3**是阿里巴巴Qwen团队最新发布的开源大语言模型,提供具有竞争力的性能,高度模块化和工具使用能力。在本指南中,我将向您展示如何**通过Ollama在本地运行Qwen3**,并启用MCP(模型上下文协议)工具功能,如`代码解释器`、`网络获取`和`时间查询`。到最后,您可以构建由Qwen3驱动的智能助手,完全在您的机器上运行——无需云API密钥!
2025-06-07 19:45:24
751
原创 大模型RAG实战|生成带有引用来源的回答
在企业级应用场景,我们通常采用检索增强生成(RAG,Retrieval-Augmented Generation)技术,要求大语言模型(LLM)严格基于从知识库检索到的信息生成内容,而不得编造任何内容。
2025-06-07 19:44:28
841
原创 AI科普|通俗理解MCP及其对Agent的意义
MCP的出现到底解决了什么问题?本文从非技术视角讲解MCP是什么、它的出现带来的价值及其对Agent的关键意义。
2025-06-06 19:44:29
865
原创 SQL玩转多模态AI,轻松搞定图片+文本混合搜索
在AI驱动智能商业的今天,传统搜索系统已无法满足用户对“秒级响应+多模态交互”的极致体验追求。然而,当前AI检索系统却普遍面临两大难题:数据需要从数据库“搬运”到向量库,造成冗余与版本混乱;工具链割裂,模型调用复杂、部署困难,让AI难以真正融入核心业务。
2025-06-06 19:43:27
557
原创 单卡4090上一键GRPO微调Qwen3最新模型
因为国内的网络环境,造成我有 connection timeout 恐惧症,所以第一件事就是把该下载的下载好,不要在运行中去动态下载。本文用到的模型和数据集地址:
2025-06-05 19:31:31
1031
原创 训练DeepSeek-v3 671B!超大模型RL训练的挑战和难点
首先,与传统的单纯训练与推理流程相比,强化学习(RL)的训练框架具有明显的异构性。一方面,它需要借助推理框架对 prompt 进行 rollout;另一方面,还需依赖训练框架完成 log 计算与梯度更新。这种双重依赖意味着整个任务流程需要协调至少两个不同系统,显著增加了系统集成与工程实现的复杂度,工作量几乎翻倍。
2025-06-05 19:27:57
949
原创 如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL
最近LLM + RL的研究越来越火,但关于“**RL是否真的能提升模型的推理能力**”这一问题,社区仍存在不少争议。一些研究指出,RL只是在让模型变得更会“猜答案”,而非真正学会新能力。
2025-06-05 19:26:53
887
原创 训练DeepSeek-v3 671B!超大模型RL训练的挑战和难点
因为之前实习一直太忙,导致公共媒体荒废了一段时间...趁着回学校参加毕业答辩&毕业的契机,也想总结一下自己实习两个月的心得。另外本文所提的只是这个过程中的的一些坑点小结,贡献并非来源个人,感谢团队以及开源社区对671B任务的支持!
2025-06-04 20:52:10
715
原创 大模型开发:Prompt提示词工程从入门到精通
提示词工程是大模型开发的基本功。本文将从原理讲解、设计流程、优化思路及案例实战这5个方面,系统性地介绍Prompt提示词工程,帮助您全面掌握提示词(Prompt)设计的全流程。
2025-06-04 20:51:26
363
原创 AI医疗战火升级!Agent爆发,大三甲争相引入,医疗系统新一轮变革!
2025年,DeepSeek迅速席卷全国医疗行业。超过300家医院已成功部署DeepSeek,覆盖了患者服务、科研、诊疗、办公、管理等各个方面。
2025-06-03 20:56:35
848
原创 人工智能 | 红杉:AI Agent评估新风向,从结果导向看智能体的未来
近年来,人工智能(AI)技术突飞猛进,尤其是AI Agent(智能体)在长文本处理、多模态能力、工具使用和推理能力上的突破,让它们从简单的聊天机器人进化成了能够完成复杂任务、创造实际生产力的“超级助手”。
2025-06-03 20:55:03
749
原创 教师人工智能赋能与培训
人工智能作为一场新技术革命,正在改变几乎所有的行业生态,教师赋能与培训也如火如荼。然而,教师人工智能**学**什么、怎么学、在哪里学,是一个非常困惑的问题。一是技术瞬息万变,教师工作压力很大;另一方面,几乎完全不成型的人工智能应用体系,就连IT行业的从业人员都倍感困惑,让教师当实验品,进而有可能让学生当实验品并不符合教育的规律。
2025-06-02 10:45:00
1901
原创 AI Agents vs. Agentic AI:从单体智能到协作生态的技术演进
人工智能领域正在经历一场深刻的范式转变。从最初的单一AI模型,到现在的AI Agents,再到最新的Agentic AI系统——这一演进过程不仅仅是技术的迭代,更是对人工智能系统设计哲学的重新思考。一篇最新的研究论文为我们详细解析了AI Agents和Agentic AI之间的关键区别,让我们得以窥见未来智能系统的发展方向。
2025-06-01 10:45:00
632
原创 如何基于一台MacBook搞定企业级大模型知识库部署
**1.为什么要在 MacBook 上搭建知识库?**最核心最重要的是我们手上的文档资料出于安全要求,不能随便上传到云服务,也就无法实际验证知识库的实际效用。另外对于 IT 同学来说,自己亲手搭建一个完整的方案、能灵活调整和对接各种不同的模型、评测各种模型不同的表现,也是出于对技术的探索本能使然。
2025-05-31 10:45:00
906
原创 基于LangChain实现RAG的技术原理
前面为大家介绍过大模型相关的专业术语,比如AGI、RAG、LLM。也提到了当前阶段AI大模型存在的一些不足,比如对训练数据的数量和质量要求、对算力和电力的开支,以及**大模型最大的问题:信息幻觉
2025-05-30 20:57:33
967
原创 基于 Spring AI Alibaba 的 RAG 架构调优实践
RAG(Retrieval Augmented Generation,检索增强生成)是一种结合数据工程、信息抽取和文本生成的技术范式。
2025-05-29 19:35:42
711
原创 给AI装上全景雷达!NodeRAG:开源异构图 RAG 系统,革新检索与生成效率!
传统 RAG 系统依赖文本块检索,难以捕捉信息间的复杂关系,导致上下文缺失或无关信息干扰,效率低下。
2025-05-29 19:33:12
584
原创 一篇多模态大模型推理技术最新综述
尽管多模态大型语言模型(Multimodal Large Language Models, **MLLMs**)显著扩展了LLMs以处理视觉、音频和视频等多种模态,但在多模态输入之间**实现稳健的推理**仍然是一个重大挑战。**华东师大&字节跳动**系统回顾了**基于强化学习的MLLMs推理**的最新进展,涵盖了关键的算法设计、奖励机制创新以及实际应用。
2025-05-29 19:32:04
1044
原创 HealthQ:揭示大模型链在医疗对话中的提问能力
在数字医疗中,有效的患者护理需要大型语言模型(LLMs),这些模型不仅要回答问题,还要通过精心设计的询问主动收集关键信息。本文介绍了HealthQ,一种评估LLMs医疗链提问能力的新框架。通过实施先进的LLMs链,包括检索增强生成(RAG)、思维链(CoT)和反思链,HealthQ评估这些链如何有效地引出全面且相关的患者信息。为实现这一目标,我们整合了一个LLM评判器,以特异性、相关性和有用性等指标评估生成的问题,同时将这些评估与传统的自然语言处理(NLP)指标如ROUGE和基于命名实体识别(NER)的集合
2025-05-28 19:20:48
608
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人