- 博客(1132)
- 收藏
- 关注
原创 (CVPR 2025)卷积网络复活,上下文动态混合卷积ContMIx,涨点起飞
题目: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels论文地址:https://arxiv.org/pdf/2502.20087。
2025-04-01 19:08:32
1135
原创 TIM 2025 | 用于图像超分辨率的视觉状态空间模型
近年来,Transformer和卷积神经网络(CNN)在低层视觉任务中,尤其是图像超分辨率(SR)领域,受到了广泛关注。然而,CNN受限于其局部特征提取能力,而Transformer则因注意力计算的二次复杂度而面临挑战。为了有效解决这些问题,作者提出了一种密集残差连接的Mamba模型(DRCM)用于SR。DRCM通过利用全局感受野和动态加权机制,克服了CNN的局限性,并提供了类似于Transformer的高级建模能力。
2025-04-01 19:07:25
758
原创 TwinMarket:通过LLM模拟金融市场行为和社会互动
社会涌现的研究是社会科学的核心,传统的基于规则的代理模型(ABMs)难以捕捉人类行为的复杂性和多样性。大型语言模型(LLMs)作为模拟工具,能够更好地反映认知偏差和情感波动,适用于社会科学和角色扮演应用。本文介绍了TwinMarket,一个利用LLMs模拟社会经济系统的多代理框架。通过模拟股市环境,研究个体行为如何通过互动和反馈机制产生集体动态和涌现现象,如金融泡沫和衰退。该方法提供了个体决策与集体社会经济模式之间复杂关系的深刻见解。
2025-03-31 15:55:16
877
原创 MDTeamGPT:一种基于大模型的自进化多学科团队医疗咨询多智能体框架
大型语言模型(LLMs)已在各个领域取得了显著进展。然而,在多学科团队(MDT)医疗咨询中仍存在挑战。当前研究通过角色分配、任务分解和积累医学经验来增强推理能力。MDT咨询中的多角色合作往往导致过长的对话历史。这增加了模型的认知负担,并降低了效率和准确性。一些方法仅存储治疗历史。它们不提取有效经验或反思错误。这限制了知识泛化和系统进化。我们提出了一种基于LLMs的多智能体MDT医疗咨询框架来解决这些问题。我们的框架采用共识聚合和残差讨论结构进行多轮咨询。
2025-03-31 15:53:55
430
原创 CVPR 2024 | EAGLE:基于特征聚合学习的对象中心无监督语义分割
语义分割本质上依赖于大量的像素级标注数据,这促使了无监督方法的发展。其中,利用自监督视觉Transformer(ViT)进行无监督语义分割(USS)在表达深度特征方面取得了稳步进展。然而,对于包含复杂对象的图像进行语义分割时,一个主要的挑战仍然存在:在补丁级特征中缺乏显式的对象级语义编码。这一技术限制通常导致对具有多样结构的复杂对象分割不充分。为了解决这一问题,作者提出了一种新颖的方法——
2025-03-30 10:45:00
828
原创 高级检索增强生成(RAG)技术:图解综述
检索增强生成(Retrieval Augmented Generation,简称RAG)是为大型语言模型(LLM)提供从数据源检索到的信息,使其生成的答案基于这些信息。基本上,RAG就是搜索 + LLM提示,即要求模型根据搜索算法找到的信息作为上下文来回答所提供的查询。查询内容和检索到的上下文都会被嵌入发送给LLM的提示信息中。2023年,RAG是基于LLM的系统中最受欢迎的架构。有许多产品几乎完全基于RAG构建——从将网络搜索引擎与LLM相结合的问答服务,到数百个能与自有数据对话的应用程序。
2025-03-29 10:33:56
804
原创 如何写好AI提示词:指南&指北&Prompt案例
在人工智能时代,掌握如何与AI工具(如ChatGPT、DALL-E、Midjourney等)有效交互,已经成为一项必备技能。而这一切的核心,就在于如何编写高质量的AI提示词(Prompt)。本文将为你详细介绍如何从入门到精通,逐步提升你的提示词技巧,让AI更好地理解并满足你的需求。首先,你需要明确你希望AI完成什么任务。是生成文本、回答问题、创作图片,还是进行数据分析?明确目标是编写有效提示词的第一步。使用具体、清晰的描述代替笼统的表述。模糊的提示词会导致AI生成不相关或不符合预期的结果。为AI指定一个角色
2025-03-28 10:16:55
962
原创 多模态影像+生境分析:手把手教你做生境划分
影像组学生境分析(Habitat Radiomics)是一种新兴的影像学分析方法,旨在通过影像技术识别肿瘤内部的空间异质性,将肿瘤划分为具有不同影像学特征的亚区/生境(subregions/habitats)。生境分析技术可以应用于多种疾病的多种临床场景,例如:用于预测乳腺癌患者对新辅助化疗的反应,帮助区分病理完全缓解(pCR)和非完全缓解的患者;用于预测肺腺癌的侵袭性(如微血管侵犯、病理分化程度)以及免疫治疗的反应;用于预测肝细胞癌(HCC)的微血管侵犯(MVI)和病理分化程度(如低分化肝癌);
2025-03-28 10:16:03
902
1
原创 生成式人工智能赋能农业4.0:开启智慧农业新时代
随着全球人口的持续增长和人们生活水平的提高,对农产品的需求在数量和质量上都提出了更高要求。与此同时,传统农业面临着诸多困境,如资源利用效率低下、生态环境压力增大、农产品质量参差不齐等问题日益凸显。此外,气候变化带来的极端天气频繁出现,也给农业生产带来了极大的不确定性。在这样的大背景下,农业4.0应运而生。它被称为“第四次农业革命”,是农业领域的一次重大变革。农业4.0融合了物联网、大数据、人工智能、机器人技术、精准农业等一系列先进技术。
2025-03-28 10:15:09
772
原创 层次化多步奖励模型:增强大模型推理能力的新探索
随着大模型在各类生成任务中的表现不断提升,如何进一步改进它们在多步推理任务中的能力,特别是数学和逻辑推理方面,已成为大家的关注点。本文通过引入层次化评估和高效的数据增强策略,有效提升了模型在多步推理任务中的表现,尤其在模型需要识别并纠正前序错误的场景中表现突出。
2025-03-27 10:52:40
934
原创 构建以数据为中心的 Agent 智能体全局架构设计
AI Agent 智能体是一种能够感知环境、自主决策并执行行动的智能实体。它具备通过独立思考和调用工具逐步完成目标的能力。AI Agent 不仅能够理解复杂的指令,还能根据环境的变化动态调整策略,以实现特定的目标。
2025-03-27 10:51:10
769
原创 癌症研究新突破:多模态深度学习整合病理图像与基因组分析(IF:48.8)
通过多模态深度学习进行的泛癌整合组织学-基因组分析癌症是一种复杂的疾病,其诊断和治疗需要综合考虑病理形态和基因组特征。这篇发布于2022年的一项研究利用多模态深度学习技术,成功地整合了全切片病理图像和分子特征,为癌症预后预测提供了新的方法,为癌症的精准治疗带来了希望。多模态融合:采用多模态深度学习算法,整合了H&E染色的全切片图像(WSIs)和分子特征(突变状态、拷贝数变异、RNA测序表达),用于癌症预后评估。弱监督学习:使用弱监督学习范式,通过5倍交叉验证训练模型,提高了模型的泛化能力和鲁棒性。
2025-03-27 10:49:27
433
原创 GitHub 上流行的 RAG 框架介绍及优缺点分析
Haystack 是 deepset 团队推出的一款功能强大且灵活的 RAG 框架,主要用于构建端到端的问答和搜索系统。它通过模块化的设计支持文档检索、问答以及文本摘要等多种任务,并可与 Elasticsearch、FAISS、SQL 等多种文档存储方案无缝集成。主要功能:多种文档存储支持:支持 Elasticsearch、FAISS、SQL 等后端数据库。模块化管道:可自定义构建检索、排序、生成的完整工作流。与多种语言模型集成:支持 BERT、RoBERTa、DPR 等模型,方便构建问答系统。
2025-03-26 10:31:54
672
原创 RAG+QWQ 私有化知识库检索模型组合对比
• 中小型企业知识库:推荐MaxKB的BM25+DPR混合方案,兼顾成本与效果• 专业领域深度检索:选择K-BERT+知识图谱组合,需配置至少1张A100显卡• 多模态内容处理:采用RAGFlow的深度文档理解架构,注意表格数据需特殊预处理。
2025-03-26 10:00:13
262
原创 基于xLSTM的深度强化学习用于自动股票交易
传统LSTM网络在处理序列数据时存在梯度消失和长依赖捕捉困难的问题,影响其在动态和风险环境(如股市交易)中的表现。本研究提出结合扩展长短期记忆网络(xLSTM)与深度强化学习(DRL)的方法用于自动化股票交易。xLSTM网络被应用于DRL的演员和评论家组件,有效处理时间序列数据和动态市场环境。使用近端策略优化(PPO)来优化交易策略,平衡探索与利用。实验结果显示,基于xLSTM的模型在累计回报、每笔交易平均盈利、最大收益率、最大回撤和夏普比率等关键交易评估指标上优于基于LSTM的方法。
2025-03-26 09:59:20
381
原创 哈佛团队最新研究动态表明,医学AI下一步关注点在于无监督模型以及基因表达数据的利用|个人观点
文章提出了一种基于转录组学引导的切片表示学习框架TANGLE,
2025-03-26 09:58:21
850
原创 通过多智能体对话大型语言模型提升诊断能力 - 华西医院、四川大学等
大型语言模型(LLMs)在医疗保健任务中展现出潜力,但在复杂的医疗场景中面临挑战。我们开发了一个用于疾病诊断的多代理对话(MAC)框架,受到临床多学科团队讨论的启发。使用302个罕见病例,我们评估了GPT-3.5、GPT-4和MAC在医学知识和临床推理方面的表现。在初次和后续咨询中,MAC的表现均优于单一模型,诊断准确率更高,建议的检测项目也更多。当使用四个医生代理和一个监督代理,以GPT-4作为基础模型时,取得了最佳性能。MAC在重复运行中表现出高度一致性。
2025-03-25 09:54:09
722
原创 DifIISR:基于梯度引导的扩散模型实现红外图像超分辨率
红外成像在自动驾驶和机器人操作中作为辅助模态具有重要作用,因其在复杂环境下的稳定表现而备受青睐。然而,红外相机的固有局限性(如低空间分辨率和复杂的退化问题)始终影响着成像质量和后续视觉任务的表现。因此,红外图像超分辨率(IISR)技术应运而生,旨在从低分辨率红外图像中重建高分辨率图像。
2025-03-25 09:53:24
325
原创 TPAMI 2024 | PhenoBench:农业领域语义图像解释的大规模数据集和基准测试
食品、饲料、纤维和燃料的生产是农业的关键任务,未来几十年面临着诸多挑战,例如需求增加、气候变化、劳动力短缺以及可耕地减少。视觉系统可以通过提供更好的可持续田间管理决策以及支持新作物品种的培育来应对这些挑战。近年来,农业机器人在视觉和机器人社区中受到越来越多的关注,因为它为解决劳动力短缺问题和实现更可持续的生产提供了可能。尽管其他领域已经有许多大规模数据集和基准测试,推动了显著的进展,但农业领域的数据集和基准测试相对较少。本文介绍了一个用于真实农田语义解释的注释数据集和基准测试。
2025-03-25 09:52:33
602
原创 【开源】Dify+RAGFlow强强联合:知识库精准度飙升,PDF表格秒变结构化数据!
RAGFlow可解析PDF、扫描件、表格等复杂格式,自动识别布局并提取结构化数据,弥补Dify原生解析短板。通过多路召回、重排序优化策略,RAGFlow显著提升答案准确性。例如,扫描版PDF表格的解析完整度提升40%以上。Dify支持向量检索、全文检索、混合检索(推荐),结合RAGFlow的API调用,实现“非结构化数据+语义匹配”的双重优势。- 克隆源码并启动Docker容器(需CPU≥4核、内存≥16GB)。- 记录RAGFlow的API地址(如)和API Key。- 修改.env。
2025-03-24 11:14:39
1143
原创 LLM运行框架对比:ollama与vllm浅析
开源的LLM已经成为程序员、爱好者和希望在日常工作中使用生成式AI并保持隐私的用户的最佳选择,对于企业的私有化部署而言也是如此。这些模型提供了优秀的性能,有时在许多任务中可以与大型的闭源模型 (如 GPT-4o 或 Claude Sonnet 3.5) 相媲美。这些LLM是开源的,但并不意味着它们可以开箱即用,需要一个运行框架在本地或服务器上运行大模型以获得特定的用例。
2025-03-24 11:12:40
292
原创 融合注意力机制的卷积神经网络-双向长短期记忆网络(CNN-BiLSTM-Attention)的多变量/时间序列预测
CNN-BiLSTM-Attention模型是一种在自然语言处理(NLP)任务中常用的强大架构,如文本分类、情感分析等。它结合了卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)和注意力机制的优势,能够捕捉局部特征和序列数据中的长程依赖关系。CNN 主要由卷积层和池化层构成,其中卷积层利用卷积核进行电力负荷数据的有效非线性局部特征提取,池化层用于压缩提取的特征并生成更重要的特征信息,提高泛化能力。卷积神经网络作为一种深度学习模型,广泛应用于图像识别、目标检测、图像分割和自然语言处理等领域。
2025-03-24 11:10:45
865
原创 智慧农业 | 44页 | AI 智慧农业模型,赋能农业信息化建设,开启农业新时代
我国农业存在生产分散、规模小,现代农业经济组织发展滞后,融资困难,流通环节多、损耗大、成本高,信息不对称以及农产品缺乏有效分级体系等问题。与美国、荷兰、以色列等农业发达国家相比,在规模化、智能化、科技应用等方面存在差距。传统农业依赖人工管理,技术手段落后;现代农业虽有进步,但在数据管理和分析平台的智能化、灾害预警等方面仍需提升;智慧农业则能实现多样传感数据的采集、智能处理和远程控制等。智慧农业是农业未来趋势,应注重服务农业,而非替代农业,要以服务三农为宗旨,推动农业智慧化变革。
2025-03-23 10:45:00
925
原创 Nature Machine Intelligence | 人工智能数据驱动的大规模生物医学知识图谱
然而,虽然这种方法为处理噪声数据提供了坚实的基础,但未来的改进可能包括根据期刊影响因子、引用次数和发表日期等因素对论文进行加权。整合这些指标与之前研究中的方法一致,这些研究表明作者多样性、机构独立性和发表密度等特征可以预测科学主张的稳健性和可重复性。整合这些指标可以通过赋予高质量来源更多权重来进一步优化评分。此外,发表日期可以用于平衡新旧研究结果的相关性,确保最新和最具影响力的研究在最终概率中发挥更重要的作用。这种整体方法将帮助iKraph在抵御错误信息的同时,通过自适应加权不断提高预测的准确性。
2025-03-22 10:26:50
891
原创 关于智能体(AI Agent),不得不看的一篇总结
智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。
2025-03-22 10:25:46
852
原创 【CVPR2025】多模态+视觉增强+大模型
近年来,多模态大语言模型(MLLMs)在计算机视觉和自然语言处理领域取得了显著进展,广泛应用于图像描述、视觉问答等任务。然而,这些模型在实际应用中常出现物体幻觉问题,即生成的文本描述与图像中的实际物体不匹配。这主要是由于模型在推理过程中过度依赖语言先验,而在模态融合过程中对视觉信息的关注不足,导致生成内容与视觉输入不一致,尤其在高精度应用如医疗诊断和自动驾驶中存在潜在风险。
2025-03-21 10:39:36
370
原创 医院医疗大模型的分步式落地
数据来源:基于266家医院部署数据(截止3月8日),覆盖30个省级行政区+自治区,包括三甲医院167家、二甲/三级医院61家。截止2025年3月8日,已有266家医院(含167家三甲医院)的DeepSeek部署落地。DeepSeek在四大核心领域的应用实践。通过覆盖患者服务全流程优化、临床诊疗支持、医院运营管理、科研公卫赋能,构建了智能化医疗生态体系。
2025-03-21 10:38:54
367
原创 收藏!拆解CNN、RNN、Transformer、扩散模型、GAN与深度强化学习的变体与未来演进方向
本文深入探讨了深度学习领域中几类重要模型的变体研究与未来演进方向,涵盖卷积神经网络(CNN)、循环神经网络(RNN)及其变体(LSTM、GRU)、Transformer(BERT、GPT、Vision Transformer)、扩散模型、生成对抗网络(GAN)以及深度强化学习模型。
2025-03-20 10:19:41
1054
原创 AI Agent 的未来是事件驱动的
这种刚性限制了 RAG 在应对更加复杂或动态任务时的能力,因为这些任务的所有执行路径无法被穷尽式地编码。手动定义所有可能的执行路径不仅劳动密集型,而且最终会成为 AI 发展的瓶颈。固定流程架构的局限性,催生了 AI 的。
2025-03-20 10:18:18
1031
原创 【RAG优化】一文整理20多种目前常用的 RAG 创新方法
以上方法覆盖了RAG技术的核心方向,包括图谱增强、模块化设计、多模态扩展、自适应检索等。未来趋势将聚焦于多模态融合动态推理优化和轻量化部署。
2025-03-19 20:31:09
1221
1
原创 视觉胜于文本:LLM在交易中更好的应用方式?
近年来,大型语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著进展,涵盖了翻译、摘要生成和推理等多个领域。然而,LLMs在处理动态的、未见过的任务,特别是在数值推理方面的能力仍然面临挑战。现有的基准测试主要评估LLMs在具有预定义最优解的问题上的表现,这些问题往往与现实世界中缺乏明确答案的情境不符。为了弥合这一差距,我们设计了“代理交易竞技场”(Agent Trading Arena),这是一个模拟复杂经济系统的虚拟数值游戏,通过零和博弈,代理人在其中进行股票投资决策。
2025-03-19 20:28:23
707
原创 当 DeepSeek 遇见数据库,大模型如何重构 DBA 的工作模式?
在 DeepSeek 问世之前,AI 赋能数据库智能运维的核心挑战在于落地的"最后一公里"。传统 AI 系统虽能生成诊断报告,但其输出结果往往呈现为专业术语堆砌的技术指标(如锁争用率、缓存命中率等),其分析结论只能作为参考。DeepSeek 的出现,让数据库运维管理中诊断决策这一"最后一公里"问题有了解决方案。如上图所示,构建数据库智能运维 (DBAIOPS) 需要三个关键基础,即“高精度的基础数据”、“高质量运维知识”以及“强大的推理模型”,三者相辅相成,缺一不可。
2025-03-19 20:27:17
904
原创 Information Fusion 2025 | HSI修复:基于变分自编码器(VAE)和扩散模型
这篇论文提出了一种基于变分自编码器(VAE)和扩散模型的非监督HSI恢复方法,通过将高维HSI分解为低维表示和系数矩阵,构建了一个新的潜在空间,并利用扩散模型在该空间中进行采样,结合指导函数优化恢复结果。潜在空间具有连续性、平滑性和低维度特性,显著简化了高维HSI的恢复问题。通过统一的框架支持多种HSI恢复任务(全色锐化、去噪、超分辨率),无需依赖配对训练数据,解决了数据分布偏移问题。结合指导函数(TV损失)和扩散模型(DDIM),实现了任务自适应的优化。
2025-03-18 13:42:17
609
原创 开源!企业级deepseek大模型RAG框架, GitHub 11万星!
太火了, github11万星!企业级RAG框架(支持deepseek) 开源!!源代码llm–software:企业级开源大语言模型(LLM)开发框架核心目标:构建安全、高效的RAG(检索增强生成)应用提供从文档解析到生成式推理的完整流水线支持PDF/Word/Excel等50+文件格式解析预置专业化模型:集成50+开箱即用的微调模型,针对合同分析、财务报告解读等场景优化支持多种模型格式:包括HuggingFace、GGUF、OpenVINO等。
2025-03-18 13:40:45
651
原创 零代码搭建本地知识库:FireCrawl爬取+CherryStudio构建实战指南
FireCrawl:智能网页爬取工具的首选FireCrawl是一款强大的AI网页爬虫工具,专为处理动态网页内容而设计。零代码操作:通过Playground界面,只需输入网址即可启动爬取智能内容识别:自动识别网页主体内容,过滤导航栏、广告等无关元素多格式输出:支持Markdown、HTML等多种格式导出,便于后续处理递归爬取:自动发现并爬取网站内的所有链接页面动态内容支持:能够处理JavaScript渲染的动态内容CherryStudio:打造个人专属知识库的理想工具。
2025-03-18 13:37:40
947
原创 本地部署DeepSeek+DiFy平台构建智能体应用
RAG(Retrieval-Augmented Generation)检索增强生成是一种将外部知识检索与大语言模型生成能力结合的混合架构。其核心思想是通过检索外部知识库(如文档、数据库、网页等),弥补大模型静态训练数据的局限性;在生成答案时直接依赖检索到的证据,减少模型凭空编造内容的可能性,降低幻觉风险。RAG无需重新训练模型,仅需更新知识库即可适配不同专业领域(如医疗、法律)。类似将大模型视为一个“推理专家”,而RAG系统为其配备了一个“实时资料库助手”。
2025-03-17 21:27:19
802
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人