- 博客(164)
- 资源 (5)
- 收藏
- 关注
原创 借助 DeepSeek 技术实现医疗大模型知识蒸馏
想象一下,你有一位知识渊博的老师(教师模型),他/她非常聪明,但可能有点“笨重”(模型参数多,计算量大)。你还想培养一位学生(学生模型),这位学生不需要像老师那样“博大精深”,但希望他/她能尽可能学到老师的精华,用更“轻巧”的方式(模型参数少,计算量小)完成任务,并且表现接近老师。
2025-02-16 14:34:03
1022
原创 从Deepseek谈,AI时代医药人如何直面天命
在药企的应用场景中,通过将RAG技术与企业知识库相结合,当AI系统面对用户的问题时,首先会在企业知识库中进行检索,找到与问题最相关的知识片段,然后基于这些知识生成准确、专业的回答。这种技术不仅能提高AI回应的质量,还能充分激活企业数据资产的价值,将分散的知识资源转化为可被AI利用的智能资产,从而打造差异化竞争优势、通过对海量的医药文献、临床试验数据、药品说明书、专家经验,以及企业内容的各种工作文档,等进行收集、整理和存储,形成结构化或非结构化的知识库,为企业内部的AI应用使用提供可靠和私有化的识来源。
2025-02-16 14:27:17
724
原创 Deepseek与中医:当全球AI遇上世界中医(二)干中学
目前大部分中医还没有真正认识到Deepseek等新一代AI大模型工具的价值,也没有真正在自己的学习与工作中应用起来。在用好AI的基础上,中医才能提出更多的改进建议。在Deepseek等AI大模型工具的普及背景下,很有可能出现换着持AI生成的诊疗方案质疑专业中医师的现象。首批50名临床中医成员,不论是中医名家,还是青年中医都可以加入,只要你对中医有思考、有经验,对AI有兴趣,对AI有想法都可以。核心成员必须认同中医,可以是名校,也可以是多年经验的AI算法工程师、AI应用工程师等。
2025-02-13 18:18:36
803
原创 Deepseek与中医:当全球AI遇上世界中医(一)
本文旨在探讨:当前以DeepSeek为代表的大模型在中医辅助诊疗中的实际效能评估,以及未来中医AI发展的可能路径。结合AI,可以构建新一代中医教学体系,包含中医知识图谱构建、教学动态交互,虚拟现实+AI大模型的语音交互等、虚拟实训等场景。调研对象对Deepseek的接触还蛮少的,目前还没有搜集到样本,暂时没法探索中医AI在海外的落地价值。一些相对偏远山区的医疗水平明显不足,如果有一个AI,可能比他传统的村医水平强很多,所以说中医A辅助治疗是中医AI在基层医疗服务有强需求。是来抢中医的饭碗吗?
2025-02-13 10:02:02
1065
原创 多家医院已部署Deepseek大模型,AI大模型在医院应用场景剖析
AI大模型将在创新药物研发的关键环节,例如药物靶点的发现与精准验证、药物分子结构的设计与智能优化、以及临床试验流程的智能化加速等领域,发挥日益关键的核心作用,从而大幅缩短新药研发的周期,显著降低药物研发的总体成本,加速创新型药物的上市进程,最终惠及更为广大的患者群体。AI辅助诊断、AI健康智能宣教等创新应用,可以将医生从部分重复性、低价值的繁琐工作中有效解放出来,显著提升医生的工作效率与单位时间内的服务效能,从而在不大幅增加医生数量的前提下,有效提升医疗服务的供给能力,缓解医生资源短缺所带来的巨大压力。
2025-02-11 17:29:55
1557
原创 从Hippocratic AI融资1.41亿美元,看中国医疗智能体发展机会
DeepSeek的国运级创新与Hippocratic AI的垂直深耕殊途同归,共同指向医疗智能体的未来——不再是单一的技术工具,而是重塑医疗体系的战略性基础设施。虽然医疗诊断需要高度的专业判断,但在初步筛查、健康咨询和非紧急问题处理上,AI Agent可以提供24小时不间断的服务,辅助医生减轻工作负担,有效缓解医疗资源的供需矛盾,提升医疗服务的可及性。中国企业可以借鉴其“垂直化”、“平台化”的策略,结合本土市场的特点,在慢病管理、居家养老、健康管理等领域,打造具有中国特色的医疗智能体解决方案。
2025-02-10 09:53:18
891
原创 从DeepSeek爆火谈AI如何重塑全球医疗健康价值链
在此背景下,中国的AI大模型DeepSeek以前沿技术突破与切实可行的商业模式,正悄然重塑医疗健康产业的价值链,预示着AI技术应用最具潜力的变革性场景即将到来。然而,危机往往也孕育着变革的契机。DeepSeek AI 能够融合电子病历、检验报告、影像数据等多源异构数据,构建动态诊疗路径,为医生提供更全面、更智能的临床决策支持,辅助医生进行更精准的诊断和治疗。DeepSeek的技术突破,并非仅仅停留在实验室层面,而是深度契合医疗行业的实际需求,具备极强的医疗适配性,为商业价值的释放奠定了坚实的基础。
2025-02-09 12:00:00
1347
1
原创 Deepseek的核心是强化学习?哪什么是强化学习?通俗解释与专业解读
强化学习是一种序列决策框架,其目标是让智能体(Agent)通过与环境(Environment)的交互,学习一种策略(Policy),使得长期累积奖励(Reward)最大化。与监督学习(如行为克隆)不同,RL不依赖预先标注的“正确动作”,而是通过试错和反馈动态优化策略。
2025-02-08 12:57:15
1096
原创 DeepSeek:医生职业价值的智能赋能者
例如,消化科医生输入腹痛患者的症状后,模型可输出“可能性排名+检查建议”的表格,辅助医生优先排查高风险疾病。通过指令调整(如“用通俗语言解释心肌梗死”),DeepSeek可将专业术语转化为患者易懂的内容,帮助儿科医生向家长解释疫苗接种的必要性,减少信息差导致的医患矛盾。DeepSeek根据患者年龄生成差异化的沟通内容,如为老年患者设计简明的用药指南,或为儿童设计互动式健康科普故事,提升患者依从性。模型自动生成符合最新指南的培训课件,例如为住院医师设计心衰诊疗模拟案例,结合实时更新的指南内容,加速知识迭代。
2025-02-08 07:15:00
1857
原创 医院如何建设自己的Deepseek大模型
Deepseek 模型的训练成本显著低于其他同类模型,开源与低成本的双重优势,为预算敏感型的医院提供了极具吸引力的选择,加速了 AI 技术在医疗领域的普及和应用。数据自主,模型可控。Deepseek 等开源大模型的出现,打破了传统 AI 技术被少数巨头垄断的局面,医院无需支付高昂的授权费用,即可获得最先进的 AI 技术。本文旨在深入剖析 Deepseek 大模型的技术优势与突破,解读其为医院带来的战略机遇,并为医院自主训练专属医疗大模型,构建真正自主可控的智慧医疗体系,指明清晰可行的路径。
2025-02-07 18:02:23
1470
原创 Deepseek在药学的应用系列(一)| Deepseek在辅助临床药师撰写用药教育材料中的应用价值
随着医疗模式的转变和患者自我管理意识的增强,用药教育在现代药学服务中扮演着日益重要的角色。临床药师作为药学服务的核心提供者,承担着为患者提供准确、易懂、个性化用药指导的重任。然而,高质量用药教育材料的开发往往耗时耗力,且需要药师具备多方面的专业技能。近年来,人工智能(AI)技术的快速发展为解决这一难题带来了新的思路。本文将探讨人工智能,并以Deepseek等为例,在辅助临床药师用药教育材料开发中的应用价值。
2025-02-07 11:27:38
1121
原创 Agentic RAG:当检索增强生成遇上智能体革命
当某医疗AI准确预测了罕见病并发症,当教育智能体为偏远地区学生打开认知新世界,当金融风控系统阻止了数亿元的欺诈交易——我们正在见证的,不仅是技术的进步,更是人类认知边界的拓展。Agentic RAG展现的,是AI系统从"工具"到"伙伴"的质变。在这个过程中,开发者需要保持技术敏锐度与人文关怀的平衡,因为真正的智能,从来不只是算法的胜利。"人工智能的终极形态,不是取代人类,而是让我们更专注于那些真正需要人类智慧的工作。
2025-02-07 08:00:00
515
原创 如何训练具有深度思考的医疗版Deepseek?
它最大的优势在于完全免费且无使用限制,这为医疗 AI 的发展带来了新的机遇,尤其是在数据隐私和模型透明度至关重要的医疗场景中。将 DeepSeek R1 与 DSPy 结合,我们可以构建一个自改进的医疗推理系统:流程可以从反馈中学习(例如,诊断是否正确),并进行调整以最大化准确性。因此,利用 DeepSeek R1 的强大推理能力和 DSPy 的模块化设计,结合强化学习技术,可以快速打造一个能够进行深度思考、辅助医疗决策的 AI 系统。记住,我们的目标是辅助医疗,而不是取代医生。
2025-02-06 15:19:35
2054
原创 医生的DeepSeek实践指南
DeepSeek 是一款近期火爆全球的 AI 工具,能够帮助医生解析医学文本、提供结构化信息,并辅助医生进行临床决策。无论是日常诊疗、科研工作,还是医患沟通,DeepSeek 都能提供精准高效的帮助。
2025-02-06 09:00:00
5277
原创 药师的DeepSeek使用指南
然而,DeepSeek 并非万能,它只是药师的辅助工具,不能替代药师的专业判断和临床决策。药师需要始终牢记自身的专业责任,以严谨的态度对待 AI 提供的建议,并将 AI 技术与自身专业知识、临床经验相结合,才能真正实现 AI 赋能药师,共筑智药未来!同时,建议药师们积极参与药学专业机构组织的培训,深入掌握 DeepSeek 的使用技巧,共同推动 AI 技术在药学领域的创新应用!DeepSeek 能够快速提取文献核心观点,节省药师阅读大量文献的时间,帮助药师及时掌握最新的药学知识,并将其应用于临床实践。
2025-02-05 22:41:42
3354
原创 DeepSeek R1的幻觉严重?推理能力跃升背后的技术权衡与破解之道
数据显示,R1输出的稳定性标准差(0.23)是V3(0.06)的3.83倍,这意味着同样的输入可能产生差异显著的输出。相比之下,V3的MoE架构通过动态激活专家模块,如同一个专业顾问团队协作,在保持推理能力的同时,守住了事实准确性的底线。对于应用者,则需要建立“没有完美模型,只有合适工具”的认知——正如手术刀不能用来砍柴,选择合适的AI工具组合,才是智能化转型的真正要义。对比GPT系列,GPT-4o到GPT-o1的推理模型迭代中,幻觉率仅上升60%,远低于DeepSeek的267%增幅。
2025-02-05 22:09:19
1635
原创 如何利用DeepSeek打造医疗领域专属AI助手?从微调到部署全流程解析
医疗人工智能正迎来爆发式增长,但在实际应用中,通用大模型往往存在医学知识不精准、诊断逻辑不严谨等问题。本文将手把手带您实现医疗垂直领域大模型的定制化训练,以DeepSeek-R1为基座,打造专业可靠的医疗AI助手。
2025-02-03 23:56:08
4754
4
原创 什么是LPU?会打破全球算力市场格局吗?
在生成式AI向垂直领域纵深发展的关键节点,一场静默的芯片革命正在改写算力规则。Groq研发的LPU(Language Processing Unit)凭借其颠覆性架构,不仅突破了传统GPU的性能天花板,更通过与DeepSeek等国产大模型的深度协同,正在构建全新的AI基础设施生态。当前大模型推理的算力困境本质上是存储墙、能效墙、扩展墙的三重枷锁。Groq LPU采用的张量流处理器(TSP)架构,通过217MB片上SRAM构建环形内存拓扑。
2025-02-03 23:29:16
24005
原创 DeepSeek V3 vs R1:大模型技术路径的“瑞士军刀“与“手术刀“进化
这对"双子星"模型用截然不同的技术路径,在通用能力与垂直推理之间划出了清晰的界限——V3如同AI领域的"瑞士军刀",以6710亿参数的MoE架构覆盖多领域需求;二者的协同进化,正在重构大模型生态的技术版图。在通往AGI的道路上,DeepSeek双模型架构展现了中国AI公司的独特思考:与其追求虚幻的"全能模型",不如让通用智能与垂直专精各展所长。这场变革的终极意义,或许在于打破OpenAI等巨头构筑的技术壁垒——当专用模型能以百分之一的成本获得领域超越性表现,大模型竞技场正在迎来新的游戏规则。
2025-02-02 22:57:54
1913
原创 DeepSeek-R1 低成本训练的根本原因是?
这就像一个团队,每个成员都是某个领域的专家,处理问题时,只需要调用相应的专家即可,避免了“眉毛胡子一把抓”的低效模式,大幅降低了计算成本。随着DeepSeek技术路径的成熟和推广,AI大模型的训练成本有望进一步降低,这将加速AI技术的普及应用,让更多企业和个人能够享受到AI带来的红利,推动人工智能技术的蓬勃发展。更令人惊叹的是,GRPO算法将内存消耗降低至传统PPO算法的三分之一,这意味着在相同的硬件条件下,可以训练更大规模的模型,或者在更少的硬件资源下完成训练,大幅降低了训练成本。
2025-02-02 22:28:30
3486
原创 PatientSeek:首个基于Deepseek r1的开源医疗法律推理模型
与传统的医疗或法律流程不同,医疗法律领域需要进行大量的关联和联想,尤其是在医疗因果关系的问题上,其结论需要经得起法律标准的检验。这种对数据预处理的重视,体现了 WhyHow.AI 团队对数据质量的高度关注,也为其他开发者提供了宝贵的经验。DeepSeek R1 模型的发布,标志着开源推理模型性能的显著提升,使其在成本可控的前提下,具备了媲美甚至超越闭源模型的潜力。PatientSeek 的出现,顺应了这一趋势,将先进的推理能力带入医疗法律领域,有望大幅提升该领域的工作效率和决策质量。
2025-02-01 22:38:57
1544
原创 白话DeepSeek-R1论文(三)| DeepSeek-R1蒸馏技术:让小模型“继承”大模型的推理超能力
在AI领域,蒸馏技术就像一种“知识压缩”魔法:将庞大的混合专家模型(如千亿参数的DeepSeek-R1)的推理能力,提炼并迁移到更轻量的小模型中。想象一下,一位经验丰富的数学老师(大模型)将自己解题的思维过程一步步拆解,手把手教给学生(小模型)。教师模型(DeepSeek-R1)遇到题目“解方程3x + 5 = 20”时,会生成步骤:“首先减5得3x=15,再除以3得x=5,最后代入验证。:传统大模型(如MoE)需激活千亿参数,而蒸馏后的小模型仅需15B-70B参数,内存占用减少10倍以上。
2025-02-01 21:57:57
2025
原创 白话DeepSeek-R1论文(二)| DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!
DeepSeek-R1 的出现, 再次证明了人工智能技术的巨大潜力。 它不仅继承了 R1-Zero 强大的推理能力, 还通过 “冷启动数据” 和 “多阶段训练” 等创新方法, 弥补了之前的不足, 实现了 能力上的 “全面开花”。 它就像一位 从 “偏科天才” 成长为 “全能学霸” 的学生, 不仅擅长 “解难题”, 还能 “写作文”、“搞科研”, 真正具备了在各种场景下 服务人类的能力。
2025-01-31 20:35:44
1284
原创 白话DeepSeek-R1论文(一)|AI的顿悟时刻:DeepSeek-R1-Zero 纯强化学习解锁推理新境界
你可以把它想象成一个游戏。AI就像游戏里的角色,它不断尝试各种“行动”(比如回答问题),然后根据结果获得“奖励”或“惩罚”。如果答案正确,就得到奖励,鼓励它下次继续这样做;如果答案错误,就受到“惩罚”,促使它调整策略。通过无数次的“试错”和“学习”,AI就像玩游戏一样,慢慢掌握了通关的秘诀,也就是我们所说的“推理能力”。
2025-01-31 20:29:49
1662
原创 Deepseek r1模型对医疗大模型的发展有什么影响?
1.DeepSeek R1 是一款基于纯强化学习(RL)训练的开源推理模型,其核心在于通过环境反馈而非人工标注数据来优化模型行为。这种方法不仅降低了对标注数据的依赖,还显著提升了模型的推理能力。例如,DeepSeek R1 在后训练阶段大规模使用了强化学习技术,使其在极少标注数据的情况下也能达到接近 OpenAI o1 模型的性能水平。DeepSeek R1 的强化学习框架采用了多阶段训练方法,包括基础训练、强化学习和微调等步骤交替进行,进一步提升了模型的推理能力和思维链长度。
2025-01-30 19:25:30
1556
原创 爆火的Deepseek背后的GRPO技术到底是什么?
想象一下,你在教一个学生解决数学题。传统方法可能需要另一位老师(价值函数模型)来评估学生的表现。而GRPO采用了一种更智能的方式:让学生生成多个答案,然后通过比较这些答案的优劣来指导学习。这种方法不仅更加直观,还大大提高了学习效率。GRPO是在广受欢迎的PPO(Proximal Policy Optimization)基础上发展而来的强化学习方法。它最大的创新在于引入了"组内相对评估"机制,同时去除了传统方法中需要的价值函数模型,使整个训练过程更加高效和稳定。
2025-01-30 19:13:42
2114
原创 多头潜在注意力(MLA):让大模型“轻装上阵”的技术革新——从DeepSeek看下一代语言模型的高效之路
—从DeepSeek-V3看下一代语言模型的高效之路。
2025-01-29 21:20:34
2149
原创 Deepseek爆火背后的多Token技术预测
多Token预测是一种优化语言模型生成效率的技术,核心思想是让模型在每次推理时同时预测多个后续词元,例如一次性生成3到5个token,而非逐一生成。这种方法通过改变模型的架构和训练方式,让它能够更高效地处理长文本。简单来说,多Token预测就像让模型“一口气”说出更多内容,而不是一个字一个字地蹦。
2025-01-29 20:51:32
1679
原创 提升RAG效果:为何 JSON 格式远胜 Markdown?
在构建强大的 RAG (检索增强生成) 系统时,文档解析是至关重要的第一步。它直接影响着后续的检索效率和生成质量。在众多文档格式中,JSON (JavaScript Object Notation) 格式正逐渐展现出其相对于传统 Markdown 格式的巨大优势。本文将深入探讨 JSON 在 RAG 系统文档解析中的卓越之处,并结合具体案例,让你理解为何 JSON 才是构建下一代智能应用的更优选择。RAG 系统的核心目标是让模型能够利用外部知识库,生成更精准、更贴合实际的答案。
2025-01-28 10:30:00
1592
原创 DeepSeek R1凭什么这么横?揭秘背后的“炼金术”:数据蒸馏竟是点石成金的关键?
DeepSeek R1 的成功,是多种创新技术协同作用的结果,而。
2025-01-28 10:15:00
1547
原创 2025年AI Agent(智能体)的发展机会
AI Agent不再是简单的聊天机器人或助手,而是能够感知环境、自主决策并执行任务的智能实体,它们将重塑我们与技术互动的方式,并在各行各业创造巨大的商业机会。AI Agent将深刻地改变我们的生活和工作方式,开启一个全新的智能时代。传统的AI程序通常是静态的、被动的,它们只能根据预设的规则或算法执行特定的任务。AI Agent可以自动化各种重复性、繁琐的任务,例如数据录入、报表生成、流程审批,释放人力资源并提高效率。AI Agent可以控制智能家居设备,例如灯光、空调、电器,提供更舒适、便捷的生活体验。
2025-01-27 17:25:00
1326
原创 AI与药学 |AI数字药师:药品说明书构建AI药学知识库
在信息爆炸的时代,我们获取知识的方式正在经历深刻的变革。尤其是在医疗健康领域,快速、准确地获取可靠的药品信息至关重要。药品说明书作为药品信息的权威来源,却常常因为其专业术语和冗长篇幅,让使用者感到困惑。如何让药品说明书不再“晦涩难懂”,成为我们智能用药的得力助手?本文将深入探讨如何利用技术,将药品说明书转化为一个高效、易用的知识库,帮助用户快速获取所需药品信息,提升用药安全性和便捷性。
2025-01-27 11:58:06
1132
原创 FastGraphRAG:高效、低成本的知识图谱检索框架
随着人工智能与大数据技术的不断发展,知识图谱作为连接信息和概念的强大工具,在智能问答、推荐系统、搜索引擎等领域的应用越来越广泛。为了更高效地从庞大的知识图谱中提取有用信息,检索技术的创新变得尤为重要。FastGraphRAG 作为一种新兴的知识图谱检索框架,通过结合检索增强生成(Retrieval-Augmented Generation, RAG)技术和PageRank 算法,实现了信息检索效率和准确性的显著提升,具有很高的应用价值。本文将全面分析 FastGraphRAG 的核心特点、功能与应用场景、技
2025-01-27 11:02:24
1278
原创 开源RAG框架Kotaemon及其混合检索系统的优势与局限
Kotaemon作为一款先进的开源RAG框架,为构建基于文档的问答系统提供了强大的工具。其独特的混合检索系统,在检索准确性、上下文理解、响应生成、效率和适应性等方面都优于传统的RAG方法。然而,我们也需要认识到混合RAG在复杂性、资源需求、数据准备等方面存在的局限性。总而言之,Kotaemon代表了RAG技术的一大进步,它的开源特性、用户友好的设计和强大的功能,使其成为在实际应用中利用AI进行文档交互的有力工具。
2025-01-26 21:48:21
1191
原创 AI与药学 | 人工智能赋能个体化精准给药策略
AI不仅可以处理传统TDM数据,更能够整合来自EHR、基因组学、影像学等多维度、非结构化的数据,实现更全面、更深入的个体化药物治疗。未来的发展需要跨学科的合作,包括临床医生、药代动力学家、数据科学家、信息学家等,共同构建开放、协作的平台,推动AI技术在精准给药领域的落地应用,最终惠及广大患者。尽管技术不断进步,电子健康记录(EHRs)普及、数据可及性提升、云计算基础设施兴起,加速了模型指导的精准给药(MIPD)的推广,但实际应用仍然有限,且多为单机构内部方案,缺乏数据、模型和决策支持系统的协同共享。
2025-01-26 20:56:53
1009
原创 大模型开发 | RAG在实际开发中可能遇到的坑
我们有理由相信,随着技术的不断进步,RAG 系统将变得更加强大、可靠和可信,为人工智能的发展注入新的活力,并在各个领域发挥更大的作用。RAG 的效果很大程度上取决于检索组件的质量。我们需要研究更有效的上下文融合方法,例如将检索到的信息转化为 LLM 更容易理解的表示形式,或者引导 LLM 对检索到的信息进行重组和整合,使其与生成的文本自然衔接。我们需要研发更先进的检索算法,例如基于语义理解的检索技术,以及引入信息质量评估机制,对检索结果进行筛选和排序,确保为 LLM 提供高质量的上下文信息。
2025-01-25 23:15:59
1064
原创 AI与药学 | TCM-FP:基于大模型微调的中医处方预测
TCM-FTP的成功,不仅为中医的现代化和智能化提供了新的思路,也为LLM在其他专业领域的应用提供了有益的借鉴。为了验证TCM-FTP的实际疗效,作者还邀请了五位经验丰富的中医专家对模型生成的处方进行了定性评估。结果显示,TCM-FTP在两个指标上都取得了显著优于其他模型的分数,这表明TCM-FTP生成的处方不仅准确,而且符合中医理论,具有较好的疗效和安全性。与基线模型相比,TCM-FTP不仅超越了传统的TCM处方预测模型,也显著优于未经过精调的LLMs(例如,GPT-3.5和GPT-4.0)。
2025-01-25 22:58:21
1072
原创 智能体(AI Agent)2025发展趋势与展望:从工具到合作伙伴的演变
从2025年开始,智能体的演进将呈现出几个显著的趋势,这些趋势不仅会推动技术本身的进步,还将深刻改变我们的工作、生活方式以及社会结构。以下是对智能体未来发展的详细展望。同时,我们也将面临新的挑战——如何管理和利用这些日益强大的AI智能体,以确保它们在推动技术进步的同时,不断提升人类的能力和福祉。随着AI技术的进步和数据的积累,智能体将能够处理更加专业化的任务,从而为各行业提供精确的决策支持和高效的工作执行。随着智能体能力的提升,它们将能够与人类密切合作,共同解决复杂的任务,并增强人类的创造性和决策能力。
2025-01-24 21:35:02
979
原创 AI与药学 | 大模型在药物相互作用预测的应用进展
大语言模型(LLMs)在药物相互作用研究中的应用正成为药物发现、临床治疗优化和个性化医疗领域的一个重要方向。
2025-01-24 21:24:16
1150
原创 什么是稀疏 MoE?Doubao-1.5-pro 如何以少胜多?
通过优化门控网络和专家网络的配置,以及对不同计算象限(Prefill/Decode 与 Attention/FFN)的深入分析和异构硬件的针对性优化,Doubao-1.5-pro 实现了高达 7 倍的性能杠杆,即每消耗一份计算资源,就能产出 7 倍于传统模型的性能,彻底刷新了业界对大模型效能比的认知。那么,什么是稀疏 MoE?:在相同的参数量下,稀疏 MoE 可以拥有更多的专家网络,每个专家网络都可以专注于学习特定的知识或模式,从而使整个模型具备更强的学习能力和表达能力,能够捕捉到更复杂的数据关系。
2025-01-23 21:08:54
1104
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人