LLM for Medical
文章平均质量分 72
本专栏是LLM 在医学中应用的相关论文,专栏中部分文章为完整翻译,大多是摘要和结论的翻译,后续会完善所有内容翻译,订阅请注意!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Haibu Mathematical-Medical Intelligent Agent: Enhancing Large Language Model Reliability in Medical
研究背景与问题LLMs在处理复杂医疗信息上潜力巨大,可应用于临床决策支持、疾病诊断等领域,但因其概率性本质,存在事实幻觉和逻辑不一致问题,在医疗这类高风险领域难以接受。现有缓解LLMs不可靠性的方法,如检索增强生成(RAG)、模型微调等,虽能降低错误频率,却无法根除错误,也缺乏对推理过程的形式化验证机制,LLMs的“黑箱”特性阻碍了信任建立。解决方案:Haibu MMIA架构核心设计。原创 2025-11-23 09:30:00 · 96 阅读 · 0 评论 -
Gender Biasin Large Language Modelsfor Healthcare: Assignment Consistency and Clinical Implications
将大型语言模型(LLMs)整合到医疗领域,有望提升临床决策水平,但这些模型易受偏见影响,这一问题仍需重点关注。长期以来,性别因素会影响医生的行为和患者的治疗结果,因此人们担忧,当LLMs扮演类似人类的角色(如临床医生或医学教育工作者)时,可能会复制甚至放大与性别相关的偏见。本研究采用《新英格兰医学杂志》挑战赛(NEJM)的病例,为多个开源和专有LLMs分配了不同性别(女性、男性或未指定)。原创 2025-11-17 09:30:00 · 118 阅读 · 0 评论 -
REVEALING INTERCONNECTIONS BETWEEN DISEASES: FROM STATISTICAL METHODS TO LARGE LANGUAGE MODELS
通过人工分析大规模临床数据识别疾病关联,不仅耗时费力、主观性强,还容易出现专家意见分歧。尽管机器学习(ML)展现出一定潜力,但仍存在三大关键挑战:(1)需从庞大的机器学习方法体系中筛选最优方案;(2)确定真实世界临床数据(如电子健康记录EHRs)与结构化疾病描述哪类数据能提供更可靠的见解;(3)由于部分疾病关联在医学领域尚未被探索,缺乏相关“金标准”。大型语言模型(LLMs)应用广泛,但往往缺乏专业医学知识。原创 2025-11-10 09:30:00 · 157 阅读 · 0 评论 -
FocusMed: A Large Language Model-based Framework for Enhancing Medical Question Summarization
随着在线医疗平台的快速发展,消费者健康问题(CHQs)因包含冗余信息且频繁使用非专业术语,在诊断过程中效率较低。医疗问题摘要(MQS)任务旨在将CHQs转化为简洁的医生常用问题(FAQs),但现有方法仍面临问题焦点识别不佳、模型幻觉等挑战。本文探究了大型语言模型(LLMs)在MQS任务中的应用潜力,发现直接微调易产生焦点识别偏差并生成不忠实的内容。为此,本文提出一种基于核心焦点引导的优化框架。首先,设计提示模板驱动LLMs从CHQs中提取忠实于原文的核心焦点;原创 2025-11-09 09:30:00 · 119 阅读 · 0 评论 -
ON USING LARGE LANGUAGE MODELS TO ENHANCE CLINICALLY-DRIVEN MISSING DATA RECOVERY ALGORITHMS IN ELEC
Objective:电子健康记录(EHR)数据易出现缺失和错误。此前,我们设计了一种“增强型”图表审查方案,通过“辅助诊断路线图”(锚点)恢复EHR中的缺失值(例如,血糖控制受损的诊断可能意味着缺失的糖化血红蛋白值应被视为异常)。然而,图表审查成本高且耗时,限制了可审查数据的患者数量。目前,我们研究一种基于ICD-10代码(《国际疾病分类第十版》)的路线图驱动算法,旨在模拟专家图表审查并恢复缺失值,重点验证其准确性和可扩展性。原创 2025-10-24 09:48:04 · 32 阅读 · 0 评论 -
Fine-Tuning Large Language Models Using EEG Microstate Features for Mental Workload Assessment
本研究探索了脑电图(EEG)微状态与大型语言模型(LLMs)的交叉领域,以提升认知负载状态的评估效果。研究通过利用EEG微状态特征,微调LLMs,从而更准确地预测“休息”(Rest)和“负载”(Load)这两种不同的认知状态。实验设计分为四个全面的阶段:数据集收集与预处理、微状态分割与EEG反拟合、特征提取与提示工程,以及LLM模型的选择与优化。研究采用监督学习范式,训练LLM基于提示中融入的EEG微状态特征识别认知负载状态,实现了对认知负载的精准区分。原创 2025-10-15 08:30:00 · 185 阅读 · 0 评论 -
How Effectively Can Large Language Models Connect SNP Variants and ECG Phenotypes for Cardiovascular
心血管疾病(CVD)预测因其多因素病因及全球发病率、死亡率负担,仍是一项巨大挑战。尽管基因组和电生理数据的可获得性日益提高,但从这类高维度、含噪声且标注稀疏的数据集中提取具有生物学意义的见解,仍是一项艰巨任务。近年来,大型语言模型(LLMs)已被有效应用于预测生物序列的结构变异。本研究探索了微调后的LLMs在心血管疾病预测及识别可能导致心血管疾病风险的SNP方面的潜力,所使用的遗传标志物源自高通量基因组分析。原创 2025-10-11 09:30:00 · 159 阅读 · 0 评论 -
Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
大型语言模型(LLMs)在医学影像任务中的应用日益广泛,涵盖影像解读与合成影像生成。然而,这些模型常产生“幻觉”——即自信却错误的输出,可能误导临床决策。本研究从两个方向考察“幻觉”问题:一是“图像到文本”方向,即LLM根据X光、CT或MRI扫描生成报告;二是“文本到图像”方向,即模型根据临床提示生成医学影像。研究分析事实矛盾、解剖不准确等错误,并基于专家制定的标准,跨影像模态评估模型输出。结果表明,在解读性与生成性任务中,“幻觉”存在共性模式,这对临床可信度具有重要意义。原创 2025-10-10 09:37:17 · 165 阅读 · 0 评论 -
LLM-Driven Treatment Effect Estimation Under Inference Time Text Confounding
本文聚焦于个性化医疗中条件平均治疗效果(CATE)估计的挑战,核心问题是推理时文本混淆:模型训练时使用结构良好的医疗数据集(含完整混杂因素),但推理时仅能获取患者自我报告症状等文本描述(仅部分包含混杂因素),导致治疗效果估计存在偏差。为解决这一问题,作者提出TCA(Text Confounding Adjustment)框架基于训练数据中的真实混杂因素估计干扰函数(nuisance functions)并构建双重稳健伪结果;原创 2025-08-09 09:30:00 · 124 阅读 · 0 评论 -
KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction
本文提出了一种名为KERAP的知识增强推理方法,旨在利用多智能体大语言模型(LLMs)实现准确的零样本诊断预测。研究背景:现有机器学习模型依赖监督训练,缺乏零样本预测能力(对未见过的病例无法预测),而LLMs虽在零样本诊断中显示潜力,但存在结构化医学推理能力不足、易产生“幻觉”(生成看似合理却不准确的预测)、预测结果可能有偏等问题。原创 2025-08-09 08:30:00 · 3085 阅读 · 0 评论 -
Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical
大型语言模型有望解决医疗挑战,如医疗诊断推理、研究知识获取、临床决策和消费者健康查询支持。然而,由于医学知识有限,他们经常产生幻觉。因此,整合外部知识至关重要,这需要多源知识的获取。我们通过将其视为源规划问题来应对这一挑战,即根据不同源的属性制定适合上下文的查询。现有的方法要么忽视了源计划,要么由于模型对源的期望与其实际内容之间的不一致而无法有效地实现它。为了弥合这一差距,我们提出了MedOmniKB,这是一个由多类型和多结构医学知识源组成的知识库。原创 2025-03-02 10:00:00 · 121 阅读 · 0 评论 -
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models
大型语言模型(LLM)在医学领域的出现强调了对标准数据集的迫切需求,以评估其问答(QA)性能。尽管已经有几个用于医疗质量保证的基准数据集,但它们要么涵盖了不同部门的常识,要么特定于另一个部门而不是儿科。此外,其中一些仅限于客观问题,并不衡量LLM的生成能力。因此,他们无法全面评估儿科LLMs的QA能力。为了填补这一空白,我们构建了PediaBench,这是第一个用于LLM评估的中国儿科数据集。具体来说,它包含4565个客观问题和1632个主观问题,涉及12个儿科疾病组。原创 2025-02-09 09:00:00 · 193 阅读 · 0 评论 -
Understanding the Rare Inflammatory Disease Using Large Language Models and Social Media Data
结节病是一种罕见的炎症性疾病,其特征是在多个器官中形成肉芽肿。由于其多样的表现和不可预测的性质,该疾病给诊断和治疗带来了挑战。在这项研究中,我们采用大型语言模型(LLM)来分析社交媒体平台 Reddit 上与结节病相关的讨论。我们的研究结果强调了LLM在准确识别结节病相关内容方面的功效。我们发现患者报告了多种症状,其中最常见的是疲劳、淋巴结肿大和呼吸急促。泼尼松是最常用的药物,而英夫利昔单抗在改善预后方面表现出最高的有效性。原创 2024-12-25 09:15:00 · 254 阅读 · 0 评论 -
Explainable cognitive decline detection in free dialogues with a Machine Learning approach
认知和神经系统障碍非常常见,但只有一小部分受影响的人得到诊断和治疗,部分原因是频繁筛查的成本高昂。通过有效且高效的智能系统检测疾病前期阶段并分析神经系统疾病的进展,有利于及时诊断和早期干预。我们建议使用大型语言模型从自由对话中提取特征来检测认知能力下降。这些功能包括与内容无关的高级推理功能(例如理解力、意识下降、注意力分散和记忆问题)。我们的解决方案包括(i)预处理,(ii)通过自然语言处理技术和提示工程进行特征工程,(iii)特征分析和选择以优化性能,以及(iv)由自动可解释性支持的分类。原创 2024-12-10 10:58:45 · 201 阅读 · 0 评论 -
An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical
人工智能大语言模型 (LLM) 的不断进步提供了在许多情况下直观访问和使用医学知识的重要能力,包括教育和培训以及评估和治疗。大多数关于医学LLM的最初文献都强调LLM不适合医疗用途,因为它们具有不确定性,可能提供不正确或有害的反应,并且无法进行监管以确保质量控制。如果这些问题能够得到纠正,优化LLM技术可以通过提供负担得起的即时医疗知识来使患者和医生受益。我们提出的框架通过将其主要知识库限制为包含经过验证的医疗信息的特定领域数据集来完善LLM的响应。原创 2024-12-11 09:15:00 · 180 阅读 · 0 评论 -
Automatic Summarization of Doctor-Patient Encounter Dialogues Using Large Language Model
摘要1 引言2 方法3 实验设置4 结果5 讨论和结论自动文本摘要 (ATS) 是一项新兴技术,可帮助临床医生提供持续、协调的护理。本研究提出了一种使用生成大语言模型(LLM)总结医患对话的方法。我们开发了提示调整算法来指导生成LLM总结临床文本。我们检查了 GatorTronGPT 的提示调整策略、软提示的大小以及短学习能力,GatorTronGPT 是一种生成临床 LLM,使用 2770 亿个临床和通用英语单词以及多达 200 亿个参数开发。原创 2024-12-05 09:30:00 · 196 阅读 · 0 评论 -
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese
在实际部署之前,确保医学大语言模型 (LLM) 对人类的总体功效和益处至关重要。然而,一个被广泛接受和易于使用的医学LLM评估流程仍有待建立,特别是在中文背景下。在这项工作中,我们引入了“MedBench”,这是一个全面、标准化、可靠的中文医学LLM基准测试系统。首先,MedBench汇集了目前最大的评估数据集(300,901个问题),覆盖43个临床专业,对医学LLM进行多方位评估。其次,MedBench 提供标准化、全自动的基于云的评估基础设施,将问题和真实情况进行物理分离。原创 2024-12-04 09:15:00 · 397 阅读 · 0 评论 -
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。原创 2024-11-20 16:21:29 · 119 阅读 · 0 评论 -
Evaluation of Bias Towards Medical Professionals in Large Language Models
社会基于性别、种族和民族对医疗专业人员持有固有的偏见。本研究旨在评估大型语言模型 (LLM) 在住院医师选择方面是否表现出对医疗专业人员的偏见。**方法:**创建虚构的候选人简历以控制包括性别和种族在内的身份因素,同时保持一致的资格。三个 LLM(GPT-4、Claude-3haiku 和 Mistral-Large)使用标准化提示进行测试,以评估和排名特定住院医师计划的简历。通过直接更改性别和种族信息来测试显式偏见,而通过隐藏种族和性别更改候选人的姓名来测试隐性偏见。原创 2024-11-20 10:30:00 · 103 阅读 · 0 评论 -
Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment
目的本研究评估电子健康记录 (EHR) 和自然语言处理 (NLP) 与大型语言模型 (LLM) 的集成,以增强医疗保健数据管理和患者护理,重点是使用高级语言模型为全球生物医学研究创建安全、符合 HIPAA 标准的合成患者记录。材料和方法该研究利用 GPT-3.5、GPT-4 和 Mistral 7B 的 MIMIC III 数据集的原始去标识化和重新标识(即重新填充)版本来生成合成临床记录。文本生成使用模板和关键字提取来生成上下文相关的合成注释,并使用一次性生成进行比较分析。原创 2024-11-15 09:15:00 · 85 阅读 · 0 评论 -
RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring
准确的患者选择对于防止无效的放疗 (RT) 治疗至关重要。依赖于结构化数据的传统生存预测模型通常缺乏精度。大型语言模型 (LLM) 为构建非结构化电子健康记录 (EHR) 数据提供了一种新颖的方法,通过整合全面的临床信息,有可能改善生存预测。我们分析了 2013 年至 2023 年间延世癌症中心接受 RT 治疗的 34,276 名患者的结构化和非结构化数据。开源 LLM 使用单次学习构建了非结构化 EHR 数据。原创 2024-11-18 09:15:00 · 432 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report
背景:由于劳动密集型结构和叙述式报告,结构化放射学报告仍然不发达。深度学习,尤其是像 GPT-3.5 这样的大型语言模型 (LLM),有望以自然语言自动构建放射学报告。然而,尽管有报道 LLM 在英语以外的语言中效果较差,但其放射学性能尚未得到广泛研究。目的:本研究旨在调查使用 GPT3.5-turbo (GPT3.5) 的放射学报告对 TNM 分类的准确性以及多语言 LLM 在日语和英语中的效用。材料和方法。原创 2024-11-12 10:00:00 · 86 阅读 · 0 评论 -
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。原创 2024-11-01 14:04:48 · 113 阅读 · 0 评论 -
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note
GPT-4 和 Gemini 等专有大型语言模型 (LLM) 在临床文本摘要任务中表现出有前途的能力。但是,出于患者数据隐私和计算成本的考虑,许多医疗保健提供商更喜欢使用小型的本地托管模型,而不是外部通用 LLM。本研究为开源 LLaMA-2 130 亿参数模型提出了一个全面的领域和任务特定适应过程,使其能够从门诊医患对话中生成高质量的临床记录。我们的流程包括持续的预训练、监督式微调以及来自 AI 和人类反馈的强化学习。原创 2024-10-19 19:54:37 · 196 阅读 · 0 评论 -
OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
近年来人工智能的进步,如大型语言模型(LLMs),激发了人们对基因组基础模型(GFMs)突破的期望。自生命进化之初就隐藏在各种基因组中的自然密码,通过基因组建模对人类和生态系统的影响具有巨大的潜力。最近在GFM方面的突破,如Evo,吸引了对基因组建模的大量投资和关注,因为它们解决了长期存在的挑战,并将计算机基因组研究转化为自动化、可靠和高效的范式。在基因组学连续技术革命的繁荣时代,GFM研究面临两大挑战:缺乏GFM基准工具和缺乏用于多种基因组学的开源软件。原创 2024-10-17 09:30:00 · 296 阅读 · 0 评论 -
Answering real-world clinical questions using large language model based systems
由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。原创 2024-10-15 14:09:33 · 183 阅读 · 0 评论 -
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi
背景和目的:本研究评估了胃肠病学中大型语言模型(LLMs)和视觉语言模型(VLMs)的医学推理性能。方法:我们使用了300个胃肠病学委员会考试式的多项选择题,其中138个包含图像,以系统地评估模型配置和参数的影响,并利用GPT-3.5提示工程策略。原创 2024-10-10 09:00:00 · 260 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Repor
背景:由于劳动密集型的结构化和叙事式报告,结构化放射学报告仍然不发达。深度学习,特别是像GPT-3.5这样的大型语言模型(LLM),为用自然语言自动构建放射学报告提供了希望。然而,尽管有报道称LLM在英语以外的语言中效果较差,但它们的放射学性能尚未得到广泛研究。目的:本研究旨在调查基于使用GPT3.5 turbo(GPT3.5)的放射学报告的TNM分类的准确性,以及日语和英语多语言LLM的实用性。材料和方法:利用GPT3.5,我们开发了一个从癌症胸部CT报告中自动生成TNM分类并评估其性能的系统。原创 2024-10-07 10:30:00 · 205 阅读 · 0 评论 -
CANCERLLM: A LARGE LANGUAGE MODEL IN CANCER DOMAIN
ClinicalCamel 70B、Llama3OpenBioLLM 70B 等医学大语言模型 (LLM) 在各种医学 NLP 任务中表现出了令人印象深刻的性能。然而,目前仍然缺乏专门针对癌症领域设计的大型语言模型(LLM)。此外,这些LLM通常有数十亿个参数,这使得它们对于医疗保健系统来说计算成本高昂。原创 2024-09-28 10:00:00 · 149 阅读 · 0 评论 -
Interpretable Differential Diagnosis with Dual-Inference Large Language Models
根据患者的症状描述,自动生成鉴别诊断 (DDx) 以预测潜在疾病列表作为鉴别诊断的方法学进步对于临床推理和决策支持等应用至关重要。然而,为这些鉴别诊断提供推理或解释更有意义。幸运的是,大型语言模型 (LLM) 具有强大的语言处理能力,并已被证明在各种相关任务中有效。在这种潜力的推动下,我们研究了 LLM 在可解释 DDx 中的使用。首先,我们开发了一个新的 DDx 数据集,对 570 份公共临床笔记进行了专家衍生的解释。原创 2024-09-11 09:41:48 · 168 阅读 · 0 评论 -
A Literature Review and Framework for Human Evaluation of Generative Large Language Models
随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。原创 2024-09-07 11:21:46 · 143 阅读 · 0 评论 -
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
自 ChatGPT 和 GPT-4 发布以来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 因其在理解、推理和生成方面强大而通用的能力而受到广泛关注,从而为人工智能与医学的整合提供了新的范式。本综述全面概述了 LLM 和 MLLM 的发展背景和原则,并探讨了它们在医学中的应用场景、挑战和未来方向。具体来说,这项调查首先关注范式转变,追溯从传统模型到 LLM 和 MLLM 的演变,总结模型结构以提供详细的基础知识。原创 2024-09-07 11:04:42 · 345 阅读 · 0 评论 -
MED42-V2: A SUITE OF CLINICAL LLMS
Med42-v2引入了一套临床大型语言模型(LLM),旨在解决医疗环境中通用模型的局限性。这些模型基于Llama3架构构建,并使用专门的临床数据进行微调。他们经历了多阶段的偏好调整,以有效地应对自然提示。虽然通用模型通常是偏好一致的,以避免回答临床查询作为预防措施,但Med42-v2经过专门训练以克服这一局限性,使其能够在临床环境中使用。与原始Llama3模型相比,Med42-v2模型在8B和70B参数配置以及GPT-4方面在各种医疗基准测试中表现出卓越的性能。原创 2024-08-21 09:35:41 · 135 阅读 · 0 评论 -
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering
大型语言模型(LLMs)有可能促进人工智能技术的发展,以协助医学专家提供交互式决策支持。LLM在医学问答方面取得的最先进的成绩证明了这一潜力,取得了令人瞩目的成绩,例如在执照医学考试中取得了及格成绩。然而,尽管令人印象深刻,但医疗应用所需的质量标准仍远未达到。目前,LLM仍然受到过时知识和产生幻觉内容倾向的挑战。此外,大多数评估医学知识的基准缺乏参考金解释,这意味着无法评估LLM预测的推理。最后,如果我们考虑对英语以外的语言进行LLM基准测试,情况尤其严峻,据我们所知,英语仍然是一个完全被忽视的话题。原创 2024-08-16 14:12:54 · 153 阅读 · 0 评论 -
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
大型视觉语言模型(LVLM)能够处理各种数据类型,如成像、文本和生理信号,并可应用于各个领域。在医疗领域,LVLM具有很高的潜力为诊断和治疗提供实质性的帮助。在此之前,制定基准来评估LVLM在各种医疗应用中的有效性至关重要。当前的基准通常建立在特定的学术文献之上,主要关注单一领域,缺乏不同的感知粒度。因此,他们面临着具体的挑战,包括有限的临床相关性、不完整的评估以及对交互式LVLM的指导不足。原创 2024-08-15 15:03:34 · 206 阅读 · 0 评论 -
Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context
及时识别对于有效处理抑郁症等心理健康疾病至关重要。然而,目前的研究未能充分解决从斯瓦希里语等低资源非洲语言的社交媒体数据中预测心理健康状况的问题。本研究介绍了两种不同的方法,即利用模型无关元学习和利用大型语言模型(LLM)来解决这一差距。实验在翻译成低资源语言的三个数据集上进行,并应用于四项心理健康任务,包括压力、抑郁、抑郁严重程度和自杀意念预测。我们首先应用了一个具有自我监督的元学习模型,这改进了模型初始化,以实现快速适应和跨语言迁移。原创 2024-08-08 21:17:35 · 137 阅读 · 0 评论 -
CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis
随着大型语言模型(LLM)的出现,医学诊断领域发生了重大变革,但这些模型中可解释性的挑战在很大程度上仍未得到解决。本研究引入了诊断链(CoD),以提高基于LLM的医学诊断的可解释性。CoD将诊断过程转化为反映医生思维过程的诊断链,提供透明的推理途径。此外,CoD输出疾病置信度分布,以确保决策的透明度。这种可解释性使模型诊断变得可控,并通过置信度的熵降低来帮助识别关键症状以供查询。通过CoD,我们开发了DiagnosticsGPT,能够诊断9604种疾病。原创 2024-08-05 15:42:16 · 316 阅读 · 0 评论 -
Capabilities of Gemini Models in Medicine
各种医学应用的卓越表现给人工智能带来了相当大的挑战,需要先进的推理、获取最新的医学知识和理解复杂的多模态数据。Gemini模型在多模态和长上下文推理方面具有很强的通用能力,在医学领域提供了令人兴奋的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们引入了Med Gemini,这是一个功能强大的多模态模型家族,专门从事医学研究,能够无缝集成网络搜索的使用,并且可以使用自定义编码器有效地针对新的模式进行定制。原创 2024-07-13 21:34:07 · 239 阅读 · 0 评论 -
A Data Augmentation Pipeline Leveraging Large Language Models for Counseling Conversations
我们引入了一个利用大型语言模型(LLM)将单轮心理治疗咨询会话转化为多轮互动的管道。虽然存在人工智能支持的针对精神障碍患者的在线咨询服务,但它们往往受到多轮训练数据集有限可用性的限制,并且经常无法充分利用治疗师的专业知识。我们提出的管道有效地解决了这些限制。该管道包括两个主要步骤:1)信息提取和2)多轮咨询生成。每一步都经过精心设计,从可用的数据集中提取并生成全面的多轮咨询对话。零样本和小样本生成场景的实验结果表明,我们的方法显著增强了LLM在心理健康咨询背景下产生更高质量多轮对话的能力。原创 2024-07-08 09:57:17 · 267 阅读 · 0 评论 -
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。原创 2024-07-05 13:38:19 · 132 阅读 · 0 评论
分享