朝阳区靓仔_James-优快云博客

原创从DeepSeek 的爆火看 AI，应用的新范式和大模型从业者的未来

鲁为民博士清华学士，加州理工学院博士中国人工智能最高奖“吴文俊人工智能科学技术奖”2023年获得者刘井平博士华东理工大学副教授复旦大学博士多项研究成果在美团、淘宝、蚂蚁金服、华为等公司进行落地胡箐金智维首席科学家前Meta 旗下LLaMA大模型初创团队核心成员之一前微软技术部门负责人，Exchange online、Azure AI 等产品线研发负责人20年的AI技术研发与应用经验时间：2月22日星期六面向受众：大模型及AI技术人员和爱好者和企业技术主管等。

2025-02-21 16:00:14 410

原创 MedRAG：基于知识图谱推理增强的医疗大模型，引领AI医疗诊断新时代

在医疗领域，诊断错误一直是全球医疗系统面临的重大挑战。据研究表明，仅在美国，每年约有79.5万人因危险疾病的诊断错误而遭受永久性残疾或死亡。南洋理工大学LILY研究中心的研究团队开发了一种创新的医疗人工智能助手系统——MedRAG，通过将检索增强生成（RAG）与知识图谱推理相结合，显著提高了医疗诊断的准确性和特异性，特别是在处理表现相似的疾病时。本文将深入解析这一前沿技术的工作原理、核心创新点及其卓越的性能表现。医疗诊断错误主要源于认知偏见和判断失误。

2025-04-03 19:37:04 420

原创使用OWL实现AI Agent的初体验与简单演示

前不久manus刷屏，没几天就有了open manus、owl等开源代替产品问世。下面我以owl为例，做一个简单的AI Agent本地化运行的演示。下面直接上操作过程：克隆owl开源项目。

2025-04-02 21:22:59 651

原创智源bge开源一系列多模态向量模型，冲~

智源研究院BAAI开源一系列多模态检索模型，包括（base版和large版）和。可很方便使用BGE-VL-CLIP模型，支持，可用于应用场景。上训练而成，这是一种新颖的数据合成方法，利用开放领域的图像创建异构KNN三元组，用于通用多模态检索，包含超过2600万个三元组。

2025-04-01 19:02:37 544

原创 FinMamba：用于股票趋势预测的市场感知增强型多层次 Mamba 模型

结合股票特征与股票间相关性已成为有效的股票走势预测方法，但金融数据面临低信噪比和市场动态复杂性挑战。现有模型未能适应市场条件下股票间关系的动态变化，且难以从长历史数据中提取有益模式，效率和内存消耗问题突出。本文提出FinMamba框架，基于Mamba-GNN，进行市场感知和多层次混合股票走势预测。通过动态图学习股票间关系的变化，结合市场趋势的修剪模块，提升模型适应性。多层次Mamba机制选择性丢弃无关信息，重置状态以高效回忆多时间尺度的历史模式，优化预测。

2025-03-31 15:47:46 843

原创 3D版DeepSeek卷起开源月：两大基础模型率先SOTA！又是VAST

3D生成版DeepSeek再上新高度！国产、易用、性能强且开源——新模型一露面就刷新SOTA，并且。顺时针转个圈圈给大家看，效果是这样：加上“皮肤”是这样：再来一个，效果是这样：肉眼可见，这次妥妥升级变成了更细节的细节控～以上效果，都来自，其刚刚上新的两个基础模型，TripoSG和TripoSF，为团队的最新研发成果。该团队去年3月开源了TripoSR，在开源3D生成基础模型中爆火全球。，发布即开源，一露面就刷新开源3D生成模型SOTA，让广大开发者第一时间享受技术进步的成果。

2025-03-29 11:15:28 993

原创 Nature发表哈佛团队关于生成式医学模型的最新研究，提倡“AI住院医师”模式

在医学领域，准确解读医学图像并生成报告对患者护理至关重要，但给临床专家带来沉重负担。多模态生成式人工智能（GenMI）为医学图像解读和报告生成带来新机遇，有望实现部分流程自动化。这篇，围绕GenMI在医学报告生成中的应用展开深入探讨，对从事医学AI研究的人员极具参考价值。文章首先阐述GenMI在医学报告生成方面的进展。传统医学报告生成框架多由视觉编码器和语言解码器构成，而基础模型的出现促使新型GenMI解决方案发展。

2025-03-29 10:20:14 581

原创 RAG检索增强之ReRank(重新排序)模型

属于重排序算法，作用于初步检索（如关键词匹配或向量相似度检索）之后，对候选文档进行二次筛选和排序。在RAG（检索增强生成）流程中，与Embedding模型配合使用，形成“粗筛+精排”的协同机制。

2025-03-28 09:58:26 848

原创从MetaGPT、LangGraph看Agent记忆实现机制：兼看昨日大模型等技术进展回顾

longterm_memory.py为长时记忆的实现，用于持久化存储智能体的记忆。它会在智能体启动时恢复记忆，并在记忆发生变化时更新存储，

2025-03-27 11:17:34 377

原创视觉多模态RAG技术总结及Vision-R1用于目标检测任务的奖励函数设计

视觉领域RAG，可以针对性的看一个。

2025-03-27 10:32:21 855

原创 DeepSeek逼出谷歌新推理模型：40分优势超GPT4.5登顶竞技场，支持原生多模态，但依然败给了“竹竿问题”

又双叒，抢在OpenAI直播之前，谷歌Gemini 2.5系列来了。首个版本Pro Experimental一登场就抢下大模型竞技场第一名，并且！Gemini 2.5同样是，用Jeff Dean的说法是：这是我们最智能的模型，具有令人印象深刻的高级推理和编码能力。Be like，给出一段提示词：帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用p5js，不要用HTML。我喜欢像素风格的恐龙和有趣的背景。

2025-03-26 09:31:48 738

原创 32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——发布。此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。这一次的32B版本进一步兼顾尺寸和性能，可在本地运行。对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等， Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上，Qwen2.5-VL-32B甚至超过了72B。

2025-03-25 09:40:59 833

原创杀疯了！卷积LSTM时序预测！！

基于卷积LSTM的时间序列多尺度建模方法，通过充分利用多尺度信息与时序依赖性，展现了在复杂数据预测中的巨大潜力。在以后的可以进一步探索注意力机制、多任务学习、模型压缩等方向，以适应更大规模、更高分辨率的数据应用场景。

2025-03-24 11:50:55 991

原创 TPAMI 2025 | MulFS-CAP：用于未配准红外 - 可见图像融合的多模态融合监督跨模态对齐感知方法

在军事监视、自动驾驶等众多领域，红外和可见图像融合技术至关重要。由于两种图像成像机制不同，融合它们能获取更全面的场景信息。但现实中获取的图像常未配准，传统融合方法多基于配准图像，难以直接应用。

2025-03-24 11:49:08 873

原创蚂蚁华为阿里云罕见联手：AI医疗如何跨过落地鸿沟？

DeepSeek之后，大模型下半场的走向如何？蚂蚁华为阿里云已做出选择：携手近百家企业联手组局，将探索的航道驶向医疗新大陆。。如今，医疗机构想要快速、安全、稳定实现大模型落地，只需一键接入蚂蚁医疗大模型一体机设备，。同时还定制化配置成熟应用，直接给医院业务系统、医疗诊断、患者服务大升级。浙江省人民医院、北京市中医院、上海仁济医院等7家机构已成为首批接入合作的医疗机构。比如，。不止如此，蚂蚁与浙江卫健委合作的AI健康应用“安诊儿”已覆盖超1000家公立医院，这一方案也正应用于湖南、上海等地。

2025-03-24 10:40:08 1017

原创为什么 RAG 一定需要 Rerank？

尽管 Rerank 模型的运行速度较慢，但其在准确性上的优势使其在许多场景中不可或缺。通过两阶段检索系统，我们可以在第一阶段快速筛选出候选文档，然后在第二阶段通过 Rerank 模型进行精细排序，从而在保证效率的同时，显著提升检索结果的质量。这种策略在处理复杂的问答任务和生成任务时尤为重要，因为它能够确保最终返回的文档不仅数量适中，而且相关性更高。

2025-03-22 10:54:44 855

原创使用大模型和RAG构建知识库

通过大模型 + RAG 的结合，可以构建一个强大的知识库系统，能够高效地检索和生成知识，满足企业级应用的需求。

2025-03-22 10:15:40 982

原创垂直类AI Agent智能体开发指南

随着大模型的不断发展与普及，很多人已经明显体会到，大模型LLM在简单的办公场景应用已经非常成熟，但在一些复杂的业务场景，却很难落地应用。要想实现这一目标，需要很多专业的技术支持。由此，催生了大量AI Agent的需求，但是很多人对Agent的理解依旧停留在过去，实际上技术生态的不断发展完善，已经进入到了新的形态。随着Deepseek-R1的开源，使得很多传统公司有机会自己部署大模型，近距离使用高性能AI后，改变了很多人的观念。

2025-03-21 10:29:09 1096

原创 RAG 系统召回优化实战：百万文档中提升检索速度与精度的 4 大方案

本文从原理到代码，展示了如何优化 RAG 系统的召回环节。无论是选择领域模型、混合检索、重排序，还是向量量化，每种方法都针对特定问题提供了解决方案。在实际应用中，可根据数据规模、硬件资源和业务需求灵活组合这些技术，构建高效且准确的检索系统。

2025-03-20 10:00:50 709

原创 AI一周写出ICLR研讨会论文！成果简洁有效获审稿人大赞

AI写的论文已经在ICLR的研讨会上通过了同行评审，还是一口气中就中了两篇。其中一篇获得了的同行评审分数，另一篇的审稿人也给出了的成绩。而且从假设生成到同行评审出版整个流程都是AI自主完成，。这个“AI科学家”名为，由名为的Intology初创企业打造，成立刚刚不到两个月。两名联创分别是连续创业者和前Meta华人研究员，两人均毕业于伊利诺伊大学厄巴纳-香槟分校。并且在基于NeurIPS规则的自动打分程序的评审中，Zochi。

2025-03-19 19:52:01 732

原创【Nature Machine Intelligence】大语言模型驱动分子科学发现：从知识合成到可解释预测的革命

大型语言模型（LLMs）是一种以自然语言形式封装大量知识的人工智能系统。这些系统擅长许多复杂的任务，包括创意写作、讲故事、翻译、问答、总结和计算机代码生成。尽管LLM已经在自然科学中得到了初步应用，但它们在推动科学发现方面的潜力在很大程度上仍未得到探索。在这项工作中，我们介绍了LLM4SD，这是一个框架，旨在通过综合文献中的知识和从科学数据中推断知识，利用LLM来推动分子性质预测中的科学发现。LLM通过从科学文献中提取既定信息来综合知识，例如分子量是预测溶解度的关键。

2025-03-18 10:58:54 835

原创北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

在本文中，我们提出了一种新颖的框架——LIFT，以增强 LLMs 的长上下文理解能力。LIFT 通过高效微调模型参数，利用参数内知识（in-parameter knowledge）来动态适应长输入，从而提升长上下文任务的能力。实验结果表明，在 LooGLE 和 LongBench 等流行基准测试中，LIFT 显著提升了短上下文 LLMs 在长上下文任务中的表现。然而，LIFT 仍然存在一定局限性。

2025-03-17 17:30:41 564

原创可解释人工智能在工业智能诊断中的挑战和机遇：归因解释

（一）基于注意力机制的归因解释人类视觉系统在观察外界信息时，会自动聚焦于感兴趣区域并抑制不相关的信息。基于深度学习的注意力机制类似于人类视觉系统，可以从输入信息中筛选出利于模型预测的特征并赋予其更高的权重。基于注意力机制的事后可解释方法通过可视化注意力权重解释信号特征对模型决策的贡献。具体来讲，在深度网络中融入注意力机制，在训练过程中通过反向传播算法优化网络，注意力权重会自适应为输入信号的特征分配权重。

2025-03-14 14:43:40 1015

原创 PsyDT：利用大模型构建具有个性化咨询风格的心理咨询师数字孪生体SoulChat2.0 - 华南理工等

利用LLMs对三种合成的对话数据与真实案例的相似度进行评估对比。相比于Smile和SoulChat1.0，SoulChat2.0提出的数据生成方法（PsyDT_Prompt），在所有话题上都能很好地构建高质量的数字孪生数据。同时，我们在谈话技术（提问探询、反馈与总结、问题解决和指导）、状态与态度（开放性和价值中立、情感控制）、关系建立、疗法技术应用这4个专业维度上对SMILECHAT、SoulChatCorpus、CPsyCounD以及我们建立的PsyDTCorpus进行了比较。

2025-03-13 10:04:38 836

原创 Agent-RAG + GraphRAG 双框架，让个性化治疗方案准确率高达 100%

论文：Developing an Artificial Intelligence Tool for Personalized Breast Cancer Treatment Plans based on the NCCN Guidelines关心问题：Agentic-RAG 和 Graph-RAG，在医疗个性化方案治疗上准确率、幻觉问题、医疗指南频繁更新问题1. WHY——为什么提出这项研究？在肿瘤学尤其是乳腺癌临床中，治疗方案需要紧密跟随不断更新的NCCN指南，而这些指南内容庞大、更新频率高。

2025-03-12 11:30:37 696

原创 FinRL：深度强化学习驱动的量化交易框架

FinRL（Financial Reinforcement Learning）是一个开源深度强化学习库，专门用于自动化股票交易。该框架帮助投资者和量化交易员设计、训练和优化基于深度强化学习的交易策略。FinRL的目标是简化交易环境的搭建，并提供高效的算法和工具，使得从事金融分析和量化交易的人员能够更容易地接触到强化学习技术，开发出高效的自动化交易系统。通过FinRL，用户可以构建并训练自己的股票交易代理，评估其在不同市场环境下的表现，进而优化交易策略。

2025-03-11 15:05:25 907

原创 ICLR 2025 | 通过上下文对齐激活并增强大模型处理时间序列数据的能力

近年来，利用预训练的大型语言模型（LLMs）处理时间序列任务日益受到关注，这涉及到 LLMs 能力的激活与增强。许多方法旨在基于词元级别的对齐来激活 LLMs 的能力，但忽视了 LLMs 在自然语言处理方面的固有优势——即对语言逻辑和结构的深刻理解，而非仅仅局限于表面的嵌入处理。这里介绍一篇来自 ICLR 2025 接收的工作，该工作研究者提出了一种名为 Context-Alignment 的新范式，旨在通过将时间序列数据与语言环境中的语言成分对齐，激活并增强 LLMs 在时间序列任务中的能力。

2025-03-10 11:08:12 588

原创 Dify 搭建私有数据可视化智能体，效果直逼 ChatGPT

今天我们做一个完整的聊天应用，可以在聊天结果中实现数据可视化分析。标题说效果直逼ChatGPT，还是有点差距的，这差距多大呢，差不多一光年吧！毕竟我们今天做的还只是玩具。我们先一起来看一下ChatGPT如何实现数据可视化结果的呈现。很显然，ChatGPT的思路和我们一样，先将用户的提问转为Python代码，后台运行后，在前台显示。不过最后做的饼图对中文不太友好呀！

2025-03-10 10:11:08 1425

原创 5个人三小时复刻开源版Manus，邀请码也不需要了

这壁垒……一夜走红的Manus，现在已经有了开源复刻版！5个人3个小时，一个完全免费、无需排队等待的就做好了。至于复现程度，还是直接看Manus官方和开源团队提供的demo对比。作为全球首款通用智能体，官方提供的case如下：而OpenManus团队三小时复刻的成果是酱婶儿的：效果大家自己感受一下。对于动手能力强的小伙伴儿，也期待大家自行体验后留言反馈。

2025-03-08 10:50:10 916

原创 GraphAgent：支持十万级节点图谱生成，性能提升 90.4%

另一方面，基于深度学习的方法，如自回归模型（GraphRNN）和一次性生成模型（GraphVAE），虽然在拟合微观图结构上表现出色，但在生成超出训练数据集规模的大图时面临挑战，且难以在复杂网络增长过程中保持宏观特性。该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。通过多轮模拟，GAG 能够生成符合现实网络特性的图，如幂律分布和小世界现象。

2025-03-07 20:26:01 693

空空如也

空空如也