
大模型的实践应用
文章平均质量分 94
随着ChatGPT迅猛发展,大模型成为了当今最前沿、最具竞争力的研究方向之一。大模型通常指的是亿级别以上参数规模的神经网络模型,如ChatGPT、LLaMa2、BERT、T5等。这些模型通常使用超大规模的数据训练而成,本专利将介绍大模型的原理介绍,大模型的微调技巧,大模型的实际应用。
微学AI
人工智能高级研发者,名校硕士学历毕业,拥有15项AI领域发明专利,主攻深度学习实战案例、机器学习实战案例、大模型实战项目,研究方向包括:深度学习应用技巧,Pytorch搭建模型,机器学习经典模型,计算机视觉,自然语言处理,知识图谱,大模型实战(包括:ChatGLM、通义千问、百川、LLaMA、书生等开源模型的微调技巧、Qlora微调、提示词工程、思维链、RAG技术、LangChain框架、智能体应用项目、大模型私有化部署)。项目主要运用于医疗健康、政府文档、教育、金融、生物学、物理学、企业管理等领域。
展开
-
深度学习实战109-智能医疗随访与健康管理系统:基于Qwen3(32B)、LangChain框架、MCP协议和RAG技术研发
在当今医疗信息化快速发展的背景下,医疗随访与健康管理面临着数据分散、信息整合困难、个性化方案生成效率低等挑战。传统的医疗随访系统通常只能提供简单的数据记录和提醒功能,缺乏对患者全面健康状况的分析能力,以及基于医学知识的个性化干预建议。本项目旨在通过前沿技术构建一个智能医疗随访与健康管理系统,结合Qwen3(32B)大模型的推理能力、多语言支持和Agent功能,通过MCP协议集成外部医疗数据服务,利用RAG技术处理结构化与非结构化医疗信息,为患者提供精准的个性化随访方案和健康管理建议。原创 2025-05-27 11:45:22 · 789 阅读 · 0 评论 -
深度学习实战108-基于通义千问Qwen2.5-Omni的智能数字人实时对话系统实现
通义千问Qwen2.5-Omni作为全球首个端到端全模态大模型,实现了多模态输入与实时输出的完美结合,为构建智能数字人实时对话系统提供了强大技术支持。本报告将详细阐述基于该模型的智能数字人对话系统开发流程,包括项目背景、技术架构、实现代码及测试优化策略,帮助开发者快速构建具有语音识别、TTS语音合成、图像理解与数字人交互能力的智能应用。原创 2025-05-21 16:48:20 · 465 阅读 · 0 评论 -
深度学习实战107-基于Qwen3+GraphRAG+Agent的智能文档管理系统:精准问答与决策支持
在当今信息爆炸的时代,企业面临海量文档的管理与利用挑战。传统文档管理系统虽然提供了存储和检索功能,但缺乏对文档内容的深度理解与分析能力,更难以实现基于知识的决策支持。基于多模态大模型Qwen3、GraphRAG技术与Agent框架构建的智能文档管理系统,能够突破传统限制,实现文档内容的精准解析、知识图谱的自动构建、复杂关系的推理分析以及决策建议的生成,为企业知识管理带来革命性变革。原创 2025-05-19 17:11:15 · 293 阅读 · 0 评论 -
大模型的实践应用43-基于Qwen3(32B)+LangChain框架+MCP+RAG+传统算法的旅游行程规划系统
本报告将阐述基于大模型Qwen3(32B)、LangChain框架、MCP协议、RAG技术以及传统算法构建的智能旅游行程规划系统。该系统通过整合多种技术优势,实现了用户需求的精准分析、景点的智能推荐以及行程的优化生成,同时确保了实时数据调用的安全性和系统运行的高效性。系统充分利用Qwen3的320亿参数规模和128K上下文窗口,结合LangChain的模块化设计,实现了从需求理解到方案输出的完整闭环。原创 2025-05-16 16:05:35 · 354 阅读 · 0 评论 -
中小学生智能高效学习系统:基于大模型Qwen3(32B)+langchain框架+MCP+RAG+传统算法进行研发
本文基于大模型Qwen3(32B)+langchain框架+MCP协议+RAG+传统算法的中小学生智能学习系统设计与实现。该系统将教材内容转化为动态互动资源,提供个性化学习路径。我会从项目背景、架构设计、操作流程到代码实现进行系统性规划。原创 2025-05-14 13:54:05 · 599 阅读 · 0 评论 -
大模型的实践应用42-大模型无感式知识学习,持续输入前沿知识系统:Qwen3(32B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法
大模型辅助学习系统通过整合Qwen3(32B)大模型、LangChain框架、MCP协议及RAG技术,构建了一个智能教育平台,提供无感式学习体验。系统采用四层架构设计:知识获取层从多源数据中采集信息,知识处理层通过RAG技术进行结构化处理,学习服务层实现个性化学习路径规划,用户交互层通过自然对话和场景化设计实现无感式知识输入。核心模块包括模型调用、知识库构建和Agent框架集成,支持动态切换推理模式、混合检索策略和上下文感知的智能交互。该系统通过模块化设计和标准化接口,确保高并发下的稳定运行,并支持不同规模原创 2025-05-13 15:46:55 · 561 阅读 · 0 评论 -
大模型的实践应用41-天气预测与分析决策系统:Qwen3(32B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用41-Qwen3(32B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法研发天气预测与分析决策系统。本项目构建一个基于大模型Qwen3(32B)、LangChain框架、MCP协议、RAG技术以及传统算法的天气预测与分析决策系统。该系统通过多源数据融合、混合推理模式和智能工具调用,实现从数据采集到决策输出的全流程智能化,解决传统天气预测系统数据碎片化、处理效率低、服务同质化和决策支持弱的痛点,为公众、农业、交通等不同行业提供精准原创 2025-05-12 16:04:04 · 499 阅读 · 0 评论 -
大模型的实践应用40-医疗体检报告解读系统开发方案:Qwen3+LangChain框架+MCP上下文协议+RAG技术
医疗体检报告解读系统结合了Qwen3大模型、LangChain框架、MCP上下文协议和RAG技术,旨在解决体检报告解读效率低、专业术语难理解等问题。系统通过分层架构设计,包括数据层、模型层、交互层和应用层,实现从数据收集、预处理到AI解读、风险评估和报告生成的完整流程。该系统能够高效准确地解读体检报告,降低漏诊风险,提高医疗决策效率,同时确保数据安全和隐私保护。通过整合多种技术优势,该系统不仅符合市场需求,也响应了政策导向,具有显著的市场潜力与技术可行性。原创 2025-05-12 09:29:59 · 103 阅读 · 0 评论 -
大模型的实践应用39-Qwen3(72B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法等研发数学教学管理与成绩提升系统
在2025年AI技术快速发展的背景下,大模型在教育领域的应用潜力巨大。本文介绍了基于通义千问Qwen3(72B)大模型、LangChain框架、MCP协议和RAG技术,结合传统算法研发的数学教学管理与成绩提升系统。该系统通过整合Qwen3的数学推理和代码生成能力,构建了一个智能化教学管理平台,能够精准分析学生问题、动态生成个性化教学路径、自动评估学习效果,并支持多模态交互。系统采用分层架构设计,包括数据层、知识库层、模型层和应用层,通过MCP协议实现模型与外部工具的协同工作,显著提升了数学教学效率和学生成绩原创 2025-05-09 15:30:27 · 218 阅读 · 0 评论 -
大模型的实践应用38-基于Qwen大模型结合Gradio可视化操作的教学评价系统实现个性化教学辅导
在教学评价中引入AI技术,为教学评价带来了革命性的变革。通过利用AI进行知识检测,可以实现对学生学习情况的精准评估。例如,基于AI的智能测评系统能够根据学生的答题情况自动筛选出学生错选的选项,并根据错选的类型和程度推送对应等级的题目,从而实现个性化的教学辅导。这种个性化辅导能够更好地满足不同学生的学习需求,提高学生的学习效果。以某实验学校为例,引入AI教学评价系统后,学生的学习成绩平均提高了15%,这充分证明了AI技术在教学评价中的有效性。原创 2025-03-26 10:46:23 · 232 阅读 · 0 评论 -
大模型的实践应用37-基于Qwen大模型和多智能体、以及传统机器学习融合做数据归因分析的应用
2024年,公司销售数据出现了显著下降,这一现象引起了管理层的高度关注。与2023年相比,整体销售额下降了约20%,这一下降幅度超出了预期。从产品类别来看,电子产品销售额下降了25%,服装类产品销售额下降了18%,而家居用品销售额下降了15%。从地区分布来看,东部地区销售额下降了22%,中部地区下降了19%,西部地区下降了17%。这种全面且显著的下降趋势表明,可能有多种因素共同作用导致了这一结果。原创 2025-03-26 09:02:53 · 203 阅读 · 0 评论 -
深度学习实战104-知识图谱与RAG技术(GraphRAG)+通义千问32b在医疗领域的应用场景探究
大家好,我是微学AI,今天给大家介绍一下深度学习实战104-知识图谱与RAG技术(GraphRAG)+通义千问32b在医疗领域的应用场景探究, 知识图谱(KG)是一种语义网络,它以图的形式表示知识,节点代表实体,边代表实体之间的关系。例如在一个电影知识图谱中,节点可能是电影、演员、导演等,边可以是“参演”“执导”等关系。RAG(Retrieval - Augmented Generation)技术则是一种将信息检索与语言生成相结合的技术,旨在利用外部知识源来增强语言模型的回答能力。原创 2025-03-14 11:53:04 · 273 阅读 · 0 评论 -
Deepseek中的MoE架构的改造:动态可变参数激活的MoE混合专家架构(DVPA-MoE)的考虑
随着大语言模型这几年飞速发展,大模型应用逐步落地,对于用户在实际使用大模型过程中,对于普通用户来说会问一些简单问题,问不出比较有含金量的问题,具有含金量的问题需要设计相应的prompt模板进行提问,而大部分使用者的问题往往是简单回答即可,由于用户输入的问题有简单、中等、复杂区分,大部分普通用户输入的问题难度不高,也不会使用prompt模板,低参数的模型足够回答用户的问题,甚至很多开发者批量执行简单的小任务,例如实体抽取,文本分类等小任务。原创 2025-03-06 16:49:38 · 663 阅读 · 0 评论 -
大模型的实践应用36-基于AI Agent和通义千问大模型,支持多轮问答的智能问数和数据分析的应用场景
这个AI Agent的核心功能是通过多轮对话精准把握用户的数据查询需求,这一过程如同一场细致的需求挖掘之旅。在现代商业环境中,数据量庞大且复杂,例如一家大型电商企业,每天都会产生海量的交易记录、用户信息等数据。不同部门的人员对数据有着不同的需求,市场部门可能关注不同地区的销售趋势以制定营销策略,财务部门可能着重于成本和利润相关指标来进行财务分析。多轮对话机制就像是一把精准的钥匙,逐步开启用户内心深处对于数据查询的真正需求之门。原创 2025-03-04 09:09:27 · 645 阅读 · 0 评论 -
大模型的实践应用35-基于Qwen-32b模型与知识图谱技术、RAG等实现数据的归因分析,结合实践项目与应用场景
大模型(如通义千问14b,32b)能够理解和生成自然语言文本,通过训练大量数据学习到了丰富的知识和语言模式。RAG(检索-增强-生成)技术通过在大规模知识库中检索相关信息,结合大模型的生成能力,提供更为准确和丰富的回答。原创 2025-01-04 14:34:17 · 236 阅读 · 0 评论 -
人工智能任务11-Nvidia 系列显卡大解析 B100、A40、A100、A800、H100、H800、V100 该如何选择,各自的配置详细与架构详细介绍,分别运用于哪些项目场景
在当今高速发展的科技领域,尤其是人工智能、图形渲染、科学计算等行业,高性能计算的需求日益增长,而Nvidia作为图形处理器(GPU)领域的领头羊,其系列显卡成为了众多专业人士与爱好者的首选。本部分旨在为读者提供一个全面的Nvidia系列显卡选择的概览,深入探讨为何深入解析这些显卡至关重要,以及正确选择显卡对于提升工作效率和优化项目成本的意义。在深入探讨 NVIDIA B100 显卡之前,有必要明确其市场定位——专为数据中心设计的高效能计算(HPC)与人工智能(AI)加速器。原创 2024-10-14 15:43:52 · 5852 阅读 · 0 评论 -
大模型的实践应用34-大模型LLama3的预训练的全流程介绍,包括:数据收集处理、模型架构与初始化,训练策略等
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用34-大模型LLama3的预训练的全流程介绍,包括:数据收集处理、模型架构与初始化,训练策略等。LLama3作为一款较为先进的大型语言模型,其训练过程涉及数据整理、输入处理和模型训练等多个关键环节,国内很多大模型都是基于LLama模型架构的基础上修改与微调的。以下是一个详细的、可实现的过程介绍,包括关键步骤和示例代码。原创 2024-12-31 15:05:52 · 760 阅读 · 0 评论 -
大模型的实践应用33-关于大模型中的Qwen2与Llama3具体架构的差异全解析
Qwen2与Llama3模型架构在层次结构、参数设置、注意力机制、数据处理与输入输出层等方面存在细微差异。这些差异可能会对模型的性能、效率、适用场景等产生潜在影响。所以,在选择和使用这两个模型的时候,要根据具体的应用需求和场景进行综合考虑。通过详细对比它们的技术细节、实际应用案例、最新研究进展、性能指标以及模型训练过程等内容,可以让我们对这两个模型有更全面、准确和有说服力的认识。原创 2024-12-27 13:54:33 · 660 阅读 · 0 评论 -
大模型的实践应用32-在Linux系统中实现分布式计算管理、GPU卡聚合使用以及CPU虚拟化,通过多种技术和工具来达成
CPU虚拟化:为集群中的各个节点提供基础资源支持。通过虚拟化技术,可以将物理CPU资源抽象成多个虚拟CPU,灵活分配给不同的计算任务或服务,提高资源利用率。GPU聚合使用:与分布式计算框架协作,提高计算性能。通过聚合多块GPU的计算能力,可以在大规模数据处理和深度学习模型训练等高性能计算任务中实现显著的速度提升。集群组建:通过网络连接多个计算节点,形成一个统一的计算资源池。每个节点可以是配备了CPU和/或GPU的服务器,它们共同工作,执行复杂的计算任务。分布式计算管理。原创 2024-12-18 15:17:00 · 105 阅读 · 0 评论 -
大模型的实践应用31-基于通义千问大模型改进台风和海浪预测研究,利用机器学习与通义千问结合的思路实现对台风和海浪预测分析
通义千问大模型是阿里巴巴云推出的一款大规模语言模型,旨在通过强大的自然语言处理能力提供更广泛的服务。从最初的构想到如今的广泛应用,通义千问的发展见证了人工智能领域尤其是自然语言处理技术的巨大进步。自发布以来,通义千问不断迭代升级,不仅在规模上实现了飞跃式的增长,在性能方面也得到了显著提升。本次研究尝试将通义千问强大的自然语言处理能力与经典的时间序列预测算法相结合,旨在提高对未来天气状况预测的精度。具体来说,首先使用通义千问生成高质量的文字描述来增强特征表达力;原创 2024-11-26 11:37:44 · 536 阅读 · 0 评论 -
大模型的实践应用30-大模型训练和推理中分布式核心技术的应用
在人工智能领域,近年来“大模型”(large language models, LLMs)已成为研究与应用的焦点,标志着AI技术进入了一个全新的发展阶段。以GPT系列、BERT、Turing-NLG等为代表的大型语言模型,在自然语言处理、文本生成、机器翻译等任务上展现了前所未有的能力,推动了所谓的“百模大战”。这场竞赛不仅限于学术界,科技巨头如Google、Microsoft、阿里云等也纷纷加入,不断刷新模型参数量的纪录,力求在人工智能的军备竞赛中占据领先地位。原创 2024-09-20 17:34:32 · 1022 阅读 · 0 评论 -
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍
RLHF是一种结合了强化学习(Reinforcement Learning, RL)与人类评估的创新训练策略。不同于传统的监督学习或无监督学习,RLHF通过直接从人类的正向反馈中学习来调整模型的行为,使得模型不仅能够生成语法正确、流畅的文本,还能更准确地捕捉和反映人类的价值观、偏好和道德标准。简而言之,RLHF框架下的大语言模型就像是在持续的人机互动中不断进化的对话艺术家。原创 2024-09-11 16:51:59 · 902 阅读 · 0 评论 -
大模型的实践应用28-基于ChatGLM大模型搭建智能自助用药问答系统、药物智能管理系统的应用详解
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用28-基于ChatGLM大模型搭建智能自助用药问答系统、药物智能管理系统的应用详解。 随着人工智能技术的发展,我们的生活在许多方面都得到了改善。本文将介绍如何利用现有的大模型(如:ChatGLM2-6b,百川,通义千问)构建一个智能自助用药问答系统与智能管家。该系统旨在提供更有效、安全和便捷的个性化药物管理服务,以提高患者的生活质量和健康状况。原创 2024-09-04 17:06:30 · 520 阅读 · 0 评论 -
大模型的实践应用27-基于大模型的词向量与向量数据库pymilvus的应用与实践教程
在这篇文章中,我们将详细探讨如何使用自然语言处理技术来解决文本检索问题,并介绍如何通过向量数据库来提高检索效率的方法。整个过程分为三个主要部分:模型下载与加载、文本重排序以及文本向量数据库的使用。希望大家能够喜欢,并继续关注我们的文章。原创 2024-08-16 14:21:14 · 312 阅读 · 0 评论 -
大模型的实践应用26-大模型LLM推理优化技术,包括KVCache、PageAttention、FlashAttention、MQA、GQA的技术原理
大模型LLM推理优化聚焦KVCache缓存中间结果节省计算,PageAttention借鉴操作系统分页管理分散存储的键值对,FlashAttention加速注意力计算,MQA与GQA通过共享键值矩阵减少参数量,平衡性能与加速,共同提升推理效率与模型实用性。这些技术协同作用,显著降低了大模型推理的资源消耗和响应时间,使其更适用于实时应用环境。原创 2024-08-01 10:12:55 · 702 阅读 · 0 评论 -
大模型的实践应用25-LLama3模型模型的架构原理,以及手把手教你搭建LLama3模型
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用25-LLama3模型模型的架构原理,以及手把手教你搭建LLama3模型。LLaMA 3 是Meta公司开发的最新一代大规模语言模型,其架构在很大程度上继承了LLaMA 2的设计,但对某些关键组件进行了改进和优化。原创 2024-07-06 11:14:24 · 363 阅读 · 0 评论 -
大模型的实践应用24-LLaMA-Factory微调通义千问qwen1.5-1.8B模型的实例
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用24-LLaMA-Factory微调通义千问qwen1.5-1.8B模型的实例, LLaMA-Factory是一个专门用于大语言模型微调的框架,它支持多种微调方法,如LoRA、QLoRA等,并提供了丰富的数据集和预训练模型,便于用户进行模型微调。通义千问Qwen1.5是阿里巴巴推出的一款大型语言模型,具有多语言处理能力和较强的生成能力。原创 2024-05-23 19:59:45 · 2471 阅读 · 0 评论 -
大模型的实践应用23-深度混合的transformer改造模型MoD,计算提速50%,算力资源大大节省
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用23-深度混合的transformer改造模型MoD,计算提速50%,算力资源大大节省。“Mixture-of-Depths Transformer”是创新型语言模型,与传统的模型不同,这个模型能够根据输入序列的特定部分动态调整其计算资源的分配,而不是简单地对所有部分进行平均分配。这种策略使得模型在保持原有性能的同时,能够显著减少计算量,从而提升处理速度。实验结果显示,相较于计算量相当的基准模型,这种新型模型的速度提升了66%。原创 2024-04-29 17:31:51 · 308 阅读 · 0 评论 -
大模型的实践应用22-谷歌Gemma AI大模型的架构原理,以及Gemma模型的部署安装本地教程
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用22-谷歌Gemma AI大模型的架构原理,以及Gemma模型的部署安装本地教程。谷歌Gemma AI大模型是由Google AI团队开发并开源。Gemma模型采用Transformer编码器-解码器架构,并加入了一些改进,例如使用稀疏注意力机制来提高推理效率,使用混合精度训练来提高性能,以及使用量化技术来降低模型大小。原创 2024-04-23 12:23:32 · 766 阅读 · 0 评论 -
大模型的实践应用21-P-tuning微调技术详细介绍,计算效率与模型性能比较
大家好,我是微学AI,今天介绍一下大模型的实践应用21-P-tuning微调技术详细介绍,计算效率与模型性能比较。P-tuning是一种高效的微调方法,主要用于预训练的大型语言模型(LLMs)。这种方法的核心思想是将传统的、固定的提示(prompt)转换为可学习的嵌入(embedding)层,并通过一个简单的神经网络(如MLP或LSTM)对这些嵌入进行处理。这样,模型就可以根据特定的任务动态地调整这些提示,而不是像传统的Prompt Tuning那样使用固定的模板。原创 2024-04-21 20:40:51 · 539 阅读 · 0 评论 -
大模型的实践应用20-一种内存高效微调技术LISA,效果比LoRA有显著提升
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用20-一种内存高效微调技术LISA,效果比LoRA有显著提升。LISA是一种新型的微调技术,全称为Layerwise Importance Sampled AdamW,由UIUC联合LMFlow团队提出。这项技术主要针对大型语言模型(LLM)的微调问题,旨在实现内存高效的微调。LISA技术的核心在于对大型语言模型中的各个层次进行重要性采样,从而在保证模型性能的同时减少内存消耗。原创 2024-04-10 13:56:22 · 393 阅读 · 0 评论 -
大模型的实践应用19-基于pytorch框架下LayoutLM模型的搭建以及原理介绍
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用19-基于pytorch框架下LayoutLM模型的搭建以及原理介绍。LayoutLM是一个基于 Transformer 的预训练模型,它专门为处理布局丰富的文档信息而设计,例如扫描的文档、PDF 文件等。这个模型由微软亚洲研究院的研究团队开发,并在 2020 年发布。它结合了文本、布局信息和图像特征,能够更好地理解和处理文档中的信息原创 2024-03-15 18:09:46 · 274 阅读 · 0 评论 -
大模型的实践应用18-大模型的开发框架LangChain的简单应用与Faiss向量数据库实现
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用18-大模型的开发框架LangChain的简单应用与Faiss向量数据库实现。LangChain是一个强大的开发框架,专门用于构建基于大型语言模型(LLM)的应用程序。它提供了丰富的工具和组件,帮助开发者更轻松地利用LLM的能力。下面我将对LangChain这个库进行详细的介绍。LangChain 框架的核心优势之一是其高度模块化的设计。它将 LLM 应用程序的开发过程分解为多个独立的组件,如数据预处理、模型加载、推理、后处理等。原创 2024-03-13 16:45:50 · 404 阅读 · 0 评论 -
大模型的实践应用17-利用QLoRA技术来微调ChatGLM2时所遇到的一些问题与解决方案。
我们采用QLoRA技术微调模型QLoRA(Quantized LoRA) 是 LoRA(Low-Rank Adaptation)的一种变体,旨在通过量化的方式减少模型大小和提高计算效率,同时保持或提升微调的性能。QLoRA 主要改进了 LoRA 在处理大型模型时的效率问题,尤其是在硬件资源有限的情况下。LoRA 本身是一种参数高效的微调方法,它通过引入低秩矩阵来捕捉基础模型参数的微小变化,从而只需要微调这些低秩矩阵,而不是整个模型的参数。原创 2024-02-27 14:10:10 · 426 阅读 · 0 评论 -
大模型的实践应用16-一种针对大型预训练模型的微调技巧:Adapter-Tuning方法的实战应用,原理详细介绍
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用16-一种针对大型预训练模型的微调技巧:Adapter-Tuning方法的实战应用,原理详细介绍。Adapter-Tuning 是一种针对大型预训练模型微调的技术,它可以在保持模型参数数量较小的情况下增加模型的表现。该技术将适配器插入到预训练模型的中间层中,以允许微调特定任务时仅修改少量的参数,从而提高了微调的效率和速度。原创 2024-01-05 14:01:28 · 1443 阅读 · 0 评论 -
大模型的实践应用15-Chinese-LLaMA2模型的介绍与部署运行测试,Atom-7B-Chat模型用多种方式流式打印文本
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用15-Chinese-LLaMA2模型的介绍与部署运行测试,Atom-7B-Chat模型用多种方式流式打印文本。Llama2是由Meta公司发布的最新一代开源大型模型,其训练数据集规模为2万亿个Token。相较于Llama 1,Llama 2的上下文长度扩展到了4096,使其能够更好地理解和生成更长的文本内容。在各项开源大型模型的基准测试中,Llama 2表现出色。另外,重要的是,该模型可以免费用于商业用途。原创 2024-01-03 15:38:07 · 1353 阅读 · 0 评论 -
大模型的实践应用14-大语言模型的分布式训练并行策略,(数据、模型、张量)并行的原理介绍
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用14-大语言模型的分布式训练并行策略,(数据、模型、张量)并行的原理介绍。大语言模型的分布式训练并行策略主要通过数据并行来实现。数据并行是指将训练数据划分为多个小批量,然后将这些小批量分配给不同的计算设备进行并行处理。通过数据并行的并行策略,每个计算设备都可以独立地计算小批量数据的梯度,并将结果进行聚合,从而实现模型的并行训练。这种分布式训练策略可以加速大语言模型的训练过程,并提高模型的性能和效果。原创 2023-12-27 15:25:53 · 1746 阅读 · 0 评论 -
大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署,最小2GB显存可跑,并利用两种文本流式方式输出
大家好,我是微学AI,今天给大家介绍大模型的实践应用13-量化后的通义千问Qwen的18亿参数在CPU上的部署,最小2GB显存可跑,并利用两种文本流式方式输出。Qwen-1_8B-Chat是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-1.8B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-1.8B-原创 2023-12-14 15:02:11 · 1954 阅读 · 0 评论 -
大模型的实践应用12-GPT4框架介绍与详细训练过程,以及并行性的策略,专家权衡机制,推理权衡等内容
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用12-GPT4框架介绍与详细训练过程,以及并行性的策略,专家权衡机制,推理权衡等内容。2023年3月14日,OpenAI发布GPT-4,然而GPT-4的框架没有公开,OpenAI之所以不公开GPT-4的架构,并不是因为存在对人类的潜在威胁,而是因为他们所建立的模型是可以被复制的。原创 2023-12-05 14:42:10 · 349 阅读 · 0 评论 -
大模型的实践应用11-“书生”通用大模型的搭建与模型代码详细介绍,以及快速使用方法
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用11-“书生”通用大模型的搭建与模型代码详细介绍,以及快速使用方法。“书生” 通用大模型是上海人工智能实验室研制的大模型,并且已经开源了“书生·浦语”大模型70亿参数的轻量级版本InternLM-7B。InternLM-7B模型主要是基于transformers架构中的解码器开发改造的,架构中运用RMSNorm归一化方法、RotaryEmbedding(旋转位置嵌入)方法、注意力机制与解码器层的改造搭建起来的。该模型利用数以万亿计的高质量数据token原创 2023-12-02 10:40:13 · 435 阅读 · 0 评论