- 博客(1297)
- 收藏
- 关注
原创 LangChain官方实测:多智能体架构怎么选?
在构建 AI Agent 的时候,是不是感觉当工具和业务场景一多,单个Agent就越来越“笨”,越来越不好维护?这几乎是所有开发者的共同痛点。
2025-06-15 10:45:00
183
原创 理想AI团队重磅发布 DriveAction:重新定义类人驾驶决策基准!
当理想汽车的端到端+VLM 智驾系统实现「车位到车位」全场景覆盖,当 AI 推理可视化让机器决策透明可溯,自动驾驶正从「功能实现」迈向「体验革命」。
2025-06-14 10:45:00
580
原创 颠覆认知!最强推理LLM不是“学霸”,而是“好老师”!
一句话概括:当所有人都卷“学霸”模型时,这篇论文反手训练了一个“金牌教师”模型,结果发现教得好比学得好更重要,直接把大力出奇迹的巨无霸们给卷哭了。
2025-06-13 22:50:15
335
原创 AI4S:大语言模型(LLMs)在科研中的三种定位
“AI for Science(AI4S)”**泛指将机器学习—尤其是深度学习与大模型—嵌入科学方法六阶段(问题提出-假设-实验设计-数据采集-分析-验证迭代),以提高**速度、尺度与质量
2025-06-12 21:38:59
758
原创 微软开源GeoVision Labeler零样本分类框架,攻克复杂遥感场景分类
传统监督学习方法严重依赖海量、高质量的标注数据,而“零样本学习”——即让模型在没有见过任何标注样本的情况下进行分类,成为行业研究的难点和方向。
2025-06-12 21:37:51
645
原创 arxiv:遥感时空视觉语言模型:综述
多时相遥感影像解译的变化检测方法会产生二进制或语义掩码,无法提供人类可读的变化见解。视觉语言模型 (VLM) 的最新进展通过融合视觉和语言模式开辟了一个新的领域,实现了时空视觉语言理解:模型不仅可以捕获空间和时间依赖性来识别变化,还可以提供更丰富的时间图像交互式语义分析(例如,生成描述性标题和回答自然语言查询)。本综述首次对(Remote Sensing Spatio-Temporal Vision-Language Models,RS-STVLMs)进行了全面综述,涵盖了模型的演变,从早期的特定任务模型到
2025-06-12 20:59:39
686
原创 ICLR 2025 | 阿里等提出LLaVA-MoD,用MoE+蒸馏训练轻量化多模态大模型
本文提出**轻量化多模态大模型 LLaVA-MoD**,通过集成稀疏的专家混合(MoE)架构,优化小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合两阶段蒸馏策略(模仿蒸馏+偏好蒸馏),实现全面的知识迁移。
2025-06-12 20:57:19
781
原创 吴恩达推荐!Landing AI开源文档提取智能体:基于可视化上下文能力进行智能文档解读!
Landing AI 开源了革命性的Agentic文档提取项目:Agentic Document Extraction,**并被吴恩达推荐使用!
2025-06-12 20:55:40
823
原创 【李宏毅生成式AI 2025最新课程】:模型的神经元在做什么
AI时代的加速发展,新概念层出不穷,但来的快去的也快。很多人辛辛苦苦基于模型搭建的应用、做提示词工程,模型的一个更新就全部白费。
2025-06-11 19:17:32
293
原创 LW-DETR:用于实时检测的可替代YOLO的Transformer模型(提供源代码)
我们的方法借鉴了近期的先进技术,例如有助于提升训练效果的技术(如改进的损失函数和预训练方法),以及采用交错窗口注意力和全局注意力机制来降低ViT编码器的复杂度。我们通过聚合多尺度特征图、ViT编码器中的中间特征图和最终特征图,对ViT编码器进行改进,从而形成更丰富的特征图,并引入以窗口为主的特征图组织方式,提高交错注意力计算的效率。实验结果表明,在COCO等基准数据集上,所提出的方法优于现有的实时检测器,如YOLO及其变体。
2025-06-11 19:16:25
554
原创 GRSL| CWmamba:利用 CNN-Mamba 融合增强遥感图像中的变化检测
该论文提出了一种名为 **CWmamba** 的新型深度学习模型,专门用于遥感图像的变化检测。核心思想是将卷积神经网络(CNN)与Mamba架构进行创新性融合。针对现有方法中,CNN难以捕捉长距离特征,而Transformer计算复杂度高的问题,CWmamba模型利用Mamba结构高效处理全局依赖关系的能力,同时借助CNN在提取局部细节特征方面的优势,从而有效提升了变化检测的精度和对细节的感知能力。实验证明,该模型在SYSU-CD、LEVIR-CD+和S2Looking三个公开数据集上均取得了优异的性能表现
2025-06-11 19:15:26
787
原创 跟着论文学习图数据库 | ByteGraph
底层存储依赖于一个分布式KV存储,也是一个***\*计算与存储分离\****的架构。一个ByteGraph集群由三层组成:执行层(BGE)、内存cache层(BGS)、基于一个持久化KV存储的存储层。执行层注意处理计算密集型操作,比如排序和聚合,BGS关注原生cache数据管理和日志管理。***\*每一层都可以独立扩展\****。持久化存储层存储BGS产生的所有KV对儿(图数据、logs和元数据)。KV存储层可以使用RocksDB、TerarkDB等,在ByteGraph中作为一个黑盒存在。
2025-06-11 19:14:26
790
原创 LLM每周速递!| 涉及AI-Agent、大模型过度思考、多模态后训练、测试时扩展等热门研究
紧跟技术发展趋势,快速了解大模型最新动态。今天继续总结最近一周的研究动态,本片文章共计梳理了10篇有关大模型(LLMs)的最新研究进展,其中主要包括:**「小模型Agent」**、金融CoT推理基准、**「大模型过度思考」**、图推理归因分析、长文本推理能力提升、**「多模态后训练」**、大模型**「表格问答能力提升」**等热门研究。
2025-06-10 20:14:16
766
原创 多模态文档检索开源方案-三大竞赛获奖方案技术链路
前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。
2025-06-10 20:13:06
705
原创 MCP 和 Function Calling 架构设计对比剖析
OpenAI 早在2023年06月就推出了 **Function Calling**,为大模型提供了工具调用功能。Anthropic 在2024年11月推出了 **MCP**,旨在标准化 AI 大模型与外部工具和数据源的交互。
2025-06-10 20:11:44
816
原创 如何看待qwen3-Embedding模型
rag的时候,Embedding如何选,一般情况都是能力+成本的综合评估,我一般选择,看排行榜(重点关注的哪项能力),然后再看部署成本。一般看mteb的评估即可。
2025-06-09 20:43:00
566
原创 Elasticsearch与milvus作为RAG向量库怎么选?
本文从实践实用的角度对比分析elasticsearch与milvus到底怎么选型。你可能会好奇,为什么只做elasticsearch和milvus的对比,向量数据库何其多,具体可见:
2025-06-09 20:41:36
934
原创 关于通用型Agent与Workflow结合使用的思考
最近在研究AI技术时,发现了一个有趣的话题:通用型Agent与Workflow的结合使用。这两种技术各有优势,但在实际应用中如何取舍呢?以下是我的一些思考。
2025-06-09 20:40:52
536
原创 近千篇文献淬炼!哈工大领衔发布首篇长思维链综述:重构大模型推理能力边界
近年来,大语言模型(LLMs)在自然语言处理任务中屡创佳绩,但真正推动它们迈入智能进化新阶段的,是一种更具层次性的推理方式:**长思维链(Long Chain-of-Thought, Long CoT)
2025-06-09 20:40:07
1167
原创 Google | 溯源分析RAG系统错误,提出选择性生成框架,让RAG问答准确率提升10%
当前RAG技术应用非常广泛,但是由于涉及技术节点比较多,问题排查通用非常困难。为此,本文作者对RAG系统出现的错误进行了深入的分析,**「引入充分上下文(Sufficient Context)的概念,指出RAG系统中的幻觉现象可能是由于上下文不足引起」**,为此提出了选择性生成框架来提高RAG系统的准确性,实验结果表明该方法可让RAG系统准确率最高提升10%。
2025-06-08 10:45:00
966
原创 性能大涨!阿里开源新版Qwen3模型,霸榜文本表征
今天凌晨,阿里巴巴开源了两款Qwen3系列新模型,Qwen3-Embedding和Qwen3-Reranker。
2025-06-07 19:28:43
939
原创 bge-base-en-v1.5微调实战!手把手教你打造垂直领域“最强大脑”,让Embedding模型秒变行业专家!
在构建RAG(检索增强生成,Retrieval-Augmented Generation)系统时,想要实现“问有所答、答之有理”,一份高质量的嵌入模型远比你想象的重要。
2025-06-07 19:27:57
1031
原创 快手基础大模型团队7篇论文入选人工智能领域顶会ACL 2025
国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)是由国际计算语言学协会(Association for Computational Linguistics)主办的学术盛会,每年举办一次。作为计算语言学和自然语言处理领域最具影响力的会议之一,第63届ACL即将于7月27日至8月1日在奥地利首都维也纳隆重举办。近日,ACL正式公布了论文录用名单,快手基础大模型团队凭借其在人工智能领域的深厚积累,成功入
2025-06-06 19:26:25
594
原创 字节跳动&清华大学开源多模态时序大模型ChatTS,可实现时序数据对话与推理
近年来,多模态大语言模型(MLLM)发展迅速,并在图像、视频、音频等领域取得了突破性成果。然而,相较于这些研究较为成熟的模态,时间序列这一类型的数据与大模型结合的系统研究却较为匮乏。
2025-06-06 19:25:18
906
原创 Response指南:为什么90%的多模态RAG,一做就会,一用就废?
近年来,GPT-4V、Gemini Pro Vision 等多模态大模型快速兴起,将图像、文本、音频等多种数据类型统一理解的能力,拓展到了搜索问答、辅助诊疗、法律检索等更复杂的任务场景中。
2025-06-06 19:23:40
713
原创 重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “**全面开源、极速训练、深度可定制**” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL:
2025-06-05 19:40:47
810
原创 基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
当前的淘天实时架构是从日志服务器和业务数据库采集数据,实时数据采集到 TT (消息队列中间件,对标 Kafka)中,离线数据采集到盘古存储中;在公共层会启一个流批任务做流批计算,实时运行流任务,定时调度批任务;在计算层,实时和离线数据会写到 Hologres(OLAP 组件)中,服务层的数据产品会基于 Hologres 表做数据产品的搭建和数据看板的展示。可以看到,数据直接从 DWD 层写到 ADS 层,没有实时的DWS层,因为TT 不支持去重,Kafka 同样如此。我们希望有一个流批一体的统一存储组件,能
2025-06-05 19:39:45
674
原创 港大&NV&MIT开源Fast-dLLM:无需重新训练模型,直接提升扩散语言模型的推理效率
最近的Gemini Diffusion语言模型展现了惊人的throughput和效果,但是开源的扩散语言模型由于缺少kv cache以及在并行解码的时候性能严重下降等问题速度严重受影响。
2025-06-05 19:11:40
963
原创 LoRI: LoRA 中到底存在多少参数冗余?
聚焦**:**多任务场景中,****Lora不完美,任然存在比较大的开销和无效参数的问题,****提出了LoRI方法****:****将投影矩阵****A** **冻结为随机投影,并使用特定任务掩码对矩阵****B** **进行稀疏化处理。这种设计在保持强大任务性能的同时,*****\*大幅减少了可训练参数的数量。
2025-06-05 19:10:36
745
原创 真心强大!Spring AI + MCP 智能体工具动态更新
模型上下文协议(Model Context Protocol,MCP)是 Spring AI 中的一个强大功能,它使 AI 模型能够通过标准化接口访问外部工具和资源。MCP 的一个有趣特性是它能够在运行时动态更新可用工具。
2025-06-04 20:34:55
845
原创 多模态模型在RagFlow中的应用
在RagFlow的最新版本中(0.19.0)中,为了提升对文档中各类图片的解析效果,也尝试引入了多模态模型(image2text)对图片内容进行增强解析。我们来详细分析一下相关的过程。
2025-06-04 20:32:36
1003
原创 一口气讲清楚:AGI、RAG、AIGC
看了很多关于AI大模型的文章,发现其中高频出现了一些专业名词,比如AGI、RAG、AIGC等。看着很高大上,但这些名词到底是什么意思,又预示着什么,普通人很难通俗易懂的理解。
2025-06-03 20:40:14
1001
原创 AI Agent智能体产品的5个级别
OpenAI发布了其根据自身技术研发与产品开发的通往AGI的五级量表。OpenAI 将 AI 开发分为五个阶段,每个阶段代表更高级的能力水平:
2025-06-03 20:38:45
643
原创 LangChain基于RAG实现文档问答
大语言模型所实现的最强大应用之一是复杂的问答(Q&A)聊天机器人。这些应用能够回答关于特定源信息的问题。这些应用使用一种称为检索增强生成(RAG)的技术。
2025-06-03 20:34:46
970
原创 论文浅尝 | HOLMES:面向大语言模型多跳问答的超关系知识图谱方法(ACL2024)
多跳问答(Multi-Hop Question Answering, MHQA)技术近年来在自然语言处理领域引起了广泛关注,尤其是在大规模语言模型(LLMs)用于问答任务的背景下。然而,面对复杂的多跳问题时,现有的LLMs表现不尽如人意,其主要原因在于:理解复杂问题所需的信息筛选和上下文聚合存在很大的挑战。为了缓解这一问题,研究人员尝试结合结构化知识图谱(KG)来简化信息,但这仍不足以应对复杂、多跳问题的挑战,因为这些方法通常缺乏上下文依赖性和对查询的具体化。因此,本文提出了一种超关系(Hyper-Rela
2025-06-02 10:45:00
874
原创 用Milvus构建RAG系统,N8N VS dify 如何选?
如果将大模型视为一个知识丰富但记忆有限的专家,RAG系统则是为其配备了一个能够实时检索和提供准确信息的辅助工具。
2025-06-01 10:45:00
1004
原创 AI医疗企业盘点:谁在领跑AI辅助诊断赛道?
随着医学影像、电子病历等数据的爆发式增长,AI 通过深度学习算法(如卷积神经网络)对海量数据进行训练,逐步具备分析 CT、MRI 影像中的病灶特征、识别病理切片细胞异常等能力。在实际应用中,AI 系统可快速处理患者数据,生成初步诊断建议或风险预警,为医生提供决策参考,尤其在肺结节筛查、糖尿病视网膜病变检测等细分领域已实现商业化落地。这一技术不仅缓解了优质医疗资源短缺的压力,提升基层医院诊断效率,还通过持续学习优化算法,推动诊断标准的规范化。今天,小医来为大家深度解析该业务场景,介绍该领域表现卓越的公司,涵盖
2025-05-31 10:45:00
987
原创 本地豆包私有化RAG知识库构建案例
表友问:看到全网都在热议自己构建个人知识库,自己也想尝试,但本身对电脑也不是太熟悉,对这些各种应用与配置又不懂。虽然网上也有很多手把教的教程与指南,整个安装配置仍是麻烦。有没有一款针对电脑小白简单一点,打开就能即用的AI知识库?
2025-05-30 20:30:40
958
原创 动态数据太折磨人!静态RAG搞不定,就试下ZEP,让Agent调用实时知识图谱
您是否遇到过这样的困扰:**明明搭建了完善的RAG系统,但Agent总是回答过时的信息,或者面对历史偏好变化时一脸茫然?**
2025-05-29 19:40:33
902
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人