自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能前沿分享

人工智能大模型培训老师叶梓分享AI前沿知识

  • 博客(381)
  • 资源 (3)
  • 收藏
  • 关注

原创 LLAMAFACTORY:一键优化大型语言模型微调的利器

模型适配到特定的下游任务,通常需要进行微调(fine-tuning),这一过程往往需要大量的计算资源。为了解决这一问题,来自北京航空航天大学和北京大学的研究人员共同开发了LLAMAFACTORY,这是一个统一的框架,集成了多种前沿的高效训练方法,使得用户可以灵活地自定义100多种大型语言模型的微调过程,而无需编写代码。

2025-04-02 13:00:00 741

原创 大模型培训讲师叶梓分享前沿技术:多模态模型架构的演进

随着深度学习技术的发展,多模态模型在理解和处理跨领域数据方面表现出了显著的效能。来自普渡大学、混沌工业公司、斯坦福大学和亚马逊的研究人员共同撰写了一篇论文,题为《多模态模型架构的演进》(The Evolution of Multimodal Model Architectures),该论文系统地识别并描述了当代多模态领域中普遍存在的四种多模态模型架构模式。

2025-04-02 08:05:14 912

原创 人工智能长期记忆的新突破:HippoRAG的创新框架

大模型(LLMs)在预训练后,如何有效地整合大量新经验,同时避免灾难性遗忘,一直是人工智能领域的难题。尽管已有的检索增强生成(RAG)方法为LLMs提供了长期记忆的解决方案,但这些方法在处理需要跨段落整合新知识的复杂任务时仍然力不从心。图1通过一个例子说明,如果要找到一个既与斯坦福大学有关又研究阿尔茨海默病的教授,当前的RAG系统由于孤立地编码每个段落,很难找到这位教授,除非一个段落同时提到这两个特征。这与人类大脑的关联记忆能力形成对比,人类可以迅速通过海马体的索引结构(上图中的C形结构)回忆起这位教授。

2025-03-27 15:30:00 531

原创 大模型讲师叶梓分享前沿技术 Lory: 推进大模型训练的新篇章

随着模型规模的增长,如何有效训练并利用这些模型成为了一个挑战。陈丹琦团队一项新的研究提出了一种创新的预训练方法——Lory,旨在解决大模型在混合专家(MoE)架构中的可微分性和计算效率问题。Lory通过专家合并技术,实现了模型的完全可微分,并通过因果段路由和基于相似性的数据批处理策略,显著提高了训练效率和模型性能。这项工作不仅推动了大模型的研究边界,也为未来更高效、更强大的AI系统的发展奠定了基础。

2025-03-27 10:01:04 1052

原创 基于补全学习的时空数据自适应模型演化系统ComS2T

时空学习模型通过融合多种空间卷积和时间演化技术,有效捕捉城市数据的复杂异质性。然而,快速的城市化进程导致城市数据分布和结构频繁变动,这与现有模型假设训练和测试数据独立同分布的情况相悖。

2025-03-13 16:30:00 1464

原创 人工智能培训讲师叶梓分享前沿论文:训练验证器解决数学应用题

数学问题解决不仅要求模型能够理解问题的语言表述,还要求其能够准确地执行一系列数学运算,每一步的准确性都至关重要。

2025-03-13 07:25:28 1072

原创 人工智能大模型培训讲师叶梓分享多智能体协作新框架AGENTVERSE:探索协作行为与效率提升

人工智能咨询培训老师叶梓 转载标明出处大模型(LLMs)赋予了自主智能体广泛的任务泛化能力,但现实任务往往需要团队合作来提升效率。尽管已有研究探索了智能体的合作潜力,但这些研究通常局限于特定任务,缺乏通用性,并且智能体的合作方式较为固定,缺乏适应性。针对这一挑战,来自清华大学计算机科学与技术系、北京邮电大学计算机科学学院以及腾讯公司微信AI团队的研究人员共同提出了一个名为AGENTVERSE的多智能体框架。

2025-03-05 18:30:00 1512

原创 人工智能讲师叶梓分享自然语言任务规划的新篇章:AutoGPT+P的突破

更多分享,关注视频号:sphuYAMr0pGTk27 抖音号:44185842659尽管LLMs在自然语言处理(NLP)方面取得了显著进展,但它们在直接将自然语言指令转换为执行机器人任务的计划方面仍存在限制。这些限制主要源于LLMs在推理能力上的不足。

2025-03-05 14:07:26 961

原创 如何利用大模型优化医学信息管理

一项新的研究提出了一种结合检索增强生成(Retrieval Augmented Generation, RAG)的方法,通过知识图谱来提供结构化推理和真理模型,与LLMs结合使用,以优化医学信息的组织和决策支持。尽管结合使用大模型和知识图谱可能会在自动化医疗信息任务时产生重要的不准确性,但这些技术的特性对于提高医生处理信息和做出医疗决策的能力至关重要。新方法利用大模型的文本处理能力来构建和丰富知识图谱。混合模型:大模型和知识图谱的某些部分可能被集成到一个统一的模型中,以提供更复杂的推理和决策支持。

2025-02-20 19:30:00 847

原创 万知:告别繁琐,轻松办公

零一万物这位科技创新的弄潮儿,带着它的最新杰作——万知,闪亮登场。这不仅仅是一个产品,它是对传统工作方式的一次轻松挑战。作为一款一站式AI问答、阅读和创作平台,万知旨在为用户提供高效、便捷的工作体验。万知通过集成多种智能化工具,帮助用户在教育、企业、投资分析等领域提升工作效率和创作质量。

2025-02-20 15:11:26 465 1

原创 视频理解新篇章:Mamba模型的探索与应用

人工智能咨询培训老师叶梓 转载标明出处在计算机视觉领域,视频理解一直是一个核心研究方向,它要求算法能够捕捉视频中的时空动态以定位活动或推断其演变。随着深度学习技术的发展,研究者们探索了多种架构,如递归神经网络(RNN)、三维卷积神经网络(3D CNN)和Transformers,以期更好地理解视频内容。一种名为状态空间模型(State Space Model, SSM)的新架构引起了研究者的关注,尤其是Mamba模型,它在长序列建模方面展现出了巨大的潜力。

2025-02-12 19:30:00 751

原创 LARA:多语言多轮对话意图分类的新突破

人工智能咨询培训老师叶梓 转载标明出处1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。更多分享,关注视频号:sphuYAMr0pGTk27多轮对话意图分类面临的主要挑战在于对话的复杂性和上下文的不断变化。如图 1 所示。在多轮对话中,意图可能随着对话的进展而变化,这就需要注释者不仅要理解每条消息的内容,还要把握整个对话的上下文。由于意图种类繁多,且对话可能非常长,手动注释这样的数据集既耗时又容易出错,这对构建高质量的训练数据集构成了挑战。

2025-02-12 11:45:13 877

原创 DeepSeek培训AI讲师叶梓:大模型DeepSeek基础培训提纲

本次培训旨在系统地介绍AI与大模型的基础知识、工作原理、应用实践以及DeepSeek的相关内容,帮助学员全面了解并掌握这一前沿技术,提升其在实际工作中的应用能力。

2025-02-06 11:15:00 1244

原创 大模型培训讲师老师叶梓分享:DeepSeek多模态大模型janus初探

Janus-Pro 是对之前发布的 Janus 模型的全面升级,采用了创新的自回归框架,通过将视觉编码过程解耦为独立路径,解决了传统框架中的局限性。它支持从文本生成图像(文生图)和从图像生成文本(图生文),在多个基准测试中超越了 Stable Diffusion 和 OpenAI 的 DALL-E 3。此外,Janus-Pro 提供了1B和7B两种参数规模的模型,适合不同的应用场景。以下视频内容为叶梓分享DeepSeek多模态大模型janus的部署,并验证其实际效果,包括图生文和文生图两部分。

2025-02-02 14:00:00 372

原创 大模型驱动的自主智能体全面调研

人工智能咨询培训老师叶梓 转载标明出处基于LLMs构建的自主智能体,有望实现类似人类的决策能力。图 1 展示了LLMs驱动的自主智能体领域的增长趋势。从2021年1月到2023年8月,不同颜色代表不同类别的智能体。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具使用。然而,目前对于如何构建和评估LLMs驱动的自主智能体的研究还比较分散,缺乏系统性的总结。为了弥补这一空白,来自中国中国人民大学高瓴人工智能学院的研究团队进行了一项全面的研究调查。系统地回顾了LLMs驱动的自主智能体的研究工作。

2025-01-23 18:30:00 959

原创 利用大模型改进知识图谱补全的研究

尽管现有的基于描述的KGC方法已经利用预训练语言模型来学习实体和关系的文本表示,并取得了一定的成果,但这些方法的性能仍然受限于文本数据的质量和结构的不完整性。为了克服这些限制,中国科学技术大学、腾讯YouTu Lab、香港城市大学和北京大学的研究人员共同提出了MPIKGC框架,该框架通过从多个角度查询大模型,以补偿上下文知识的不足,从而改善KGC。具体为MPIKGC利用LLMs的推理、解释和总结能力,分别扩展实体描述、理解关系和提取结构。

2025-01-23 14:07:13 1213

原创 Vision Mamba UNet:一种新型医学图像分割网络

在医学图像分割的研究中,卷积神经网络(CNN)与变换器(Transformer)模型各有其优势和局限。CNN由于其有限的局部感受野,在捕获长距离信息时能力较弱;而尽管Transformer在全局信息建模上具有显著优势,但其自注意力机制随着图像尺寸的增加,计算复杂度会以二次方的速度增长,这使得其在处理大规模图像数据时面临较大的计算压力。

2025-01-15 20:15:00 673

原创 ViTamin——视觉-语言时代的可扩展视觉模型设计

尽管视觉-语言模型(VLMs)已经取得了显著的成就,但在图像编码器的选择上,传统的视觉Transformer(ViT)依然是主流。尽管Transformer在文本编码领域已经证明了其有效性,其在图像编码上的表现尚未得到充分验证。特别是在ImageNet这类基准测试中,已经涌现出多种不同类型的网络架构,这表明对于图像编码器而言,是否采用Transformer作为通用解决方案仍需进一步研究和探讨。

2025-01-15 17:45:00 806

原创 大模型培训叶梓老师免费分享课程:大模型应用工具dify实战分享

Dify是一款开源的大模型应用开发平台,旨在简化和加速生成式AI应用的创建和部署。它结合了后端即服务(BaaS)和LLMOps的理念,以其低代码、模块化设计和强大功能组件,为开发者提供了一站式的大模型应用开发解决方案。灵活的应用部署:Dify支持多种大语言模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。结合实践,叶梓老师带你从零开始,动手操作,快速上手Dify,解锁大模型的无限潜能。1、掌握Dify的核心功能,从大模型接入到应用构建,全方位提升开发效率。下方视频号直播预约直播。

2025-01-13 14:11:06 422

转载 Dify 零代码 AI 应用开发:快速入门与实战

Dify 是一个开源的大语言模型 (LLM) 应用开发平台。它结合了后端即服务 (Backend-as-a-Service) 和 LLMOps (LLMOps) 的概念,使开发人员能够快速构建生产级生成式 AI (Generative AI) 应用。即使是非技术人员也可以参与 AI 应用的定义和数据操作。

2025-01-12 20:00:00 3794

原创 AI人工智能培训咨询老师叶梓免费分享课程:大模型应用工具dify实战分享

灵活的应用部署:Dify支持多种大语言模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。叶梓老师将带您深入了解Dify的核心优势,从零开始构建高效的AI应用。是一款开源的大模型应用开发平台,旨在简化和加速生成式AI应用的创建和部署。结合实践,叶梓老师带你从零开始,动手操作,快速上手Dify,解锁大模型的无限潜能。1、掌握Dify的核心功能,从大模型接入到应用构建,全方位提升开发效率。3、掌握Dify的模块化设计思路,构建灵活、个性化的AI应用。关注视频号,预约直播。

2025-01-12 07:18:02 336

原创 多跳问答中的语言模型知识编辑增强

大模型在整合实时知识更新方面常常遇到困难,这可能导致回答过时或不准确。尤其当处理多跳问题时,挑战进一步增加,因为这类问题需要模型更新和整合与问题相关的多个知识点。图 1为传统基于相似度的搜索失败案例。为了解决这一问题,来自美国佐治亚大学、纽约大学、莱斯大学和北卡罗来纳州立大学的研究人员提出了一种名为“检索增强型模型编辑(RAE)”的新框架。RAE框架专为多跳问答设计,通过检索编辑后的事实,然后通过上下文学习来完善语言模型。

2025-01-08 21:30:00 1158

原创 通过反思性反馈增强和提升大模型

尽管通过人类反馈的强化学习(RLHF)在使LLMs与人类偏好对齐方面展现出潜力,但这种方法往往只会导致表面的对齐,优先考虑风格上的变化而非提升LLMs在下游任务中的表现。而且偏好的不明确可能导致模型对齐的方向模糊不清,而缺乏探索则限制了改进模型的有价值输出的识别。为了克服这些挑战,LG AI Research的研究者提出提出了一种新的框架——RLRF( RL from Reflective Feedback)。

2025-01-08 17:14:53 947

原创 图结构数据的新突破:GraphiT模型

尽管图神经网络(GNNs)在处理图数据方面取得了巨大成功,但如何有效地整合图的拓扑结构和节点特征仍然是一个挑战。为了解决这一问题,来自法国格勒诺布尔阿尔卑斯大学的研究者们提出了一种名为GraphiT(Graph Structure in Transformers)的新型模型。该模型的核心思想是将图的结构信息编码进变换器(Transformer)架构中,以期获得比传统GNNs更优的图表示能力。

2025-01-02 19:45:00 879

原创 将Transformer网络推广到图结构

关注视频号随时了解前沿论文:传统的Transformer网络设计用于处理完全连接的图,这在NLP中是可行的,因为句子中的每个词都可以与序列中的其他词相关联。然而,这种架构没有利用图的连接性,当图拓扑结构重要且未编码到节点特征中时,性能可能会很差。由南洋理工大学的研究者们提出了一种新的图Transformer网络架构,旨在解决传统Transformer在图数据上的应用问题。

2025-01-02 11:30:20 907

原创 利用大规模无监督学习提升药物分子表示

人工智能咨询培训老师叶梓 转载标明出处在人工智能驱动的药物设计和发现领域,获取具有信息量的分子表示是一个至关重要的前提。近年来,研究者们将分子抽象为图,并利用图神经网络(GNNs)进行分子表示学习,展现出了巨大的潜力。然而,实际应用中GNNs面临着两个主要问题:一是用于监督训练的标记分子数据不足;二是模型对新合成分子的泛化能力较差。

2024-12-24 20:00:00 836

原创 基于注意力机制的图表示学习:GRAPH-BERT模型

人工智能咨询培训老师叶梓 转载标明出处图神经网络(GNNs)在处理图结构数据方面取得了显著的进展,但现有模型在深层结构中存在性能问题,如“悬挂动画问题”和“过平滑问题”。而且图数据内在的相互连接特性限制了大规模图输入的并行化处理,这在内存限制下尤为突出。针对这些问题,美国佛罗里达州立大学IFM实验室和伊利诺伊大学芝加哥分校以及北京邮电大学的研究者共同提出了一种新的图神经网络模型——GRAPH-BERT(基于图的BERT),该模型完全基于注意力机制,不依赖于任何图卷积或聚合操作。

2024-12-24 15:20:09 902

原创 图变换器的再思考:谱注意力网络

人工智能咨询培训老师叶梓 转载标明出处图神经网络(GNNs)的传统策略是通过稀疏的消息传递过程直接编码图结构。然而,这种方法存在固有的局限性,例如过度平滑和过度压缩问题,这些限制了模型的性能和表达能力。

2024-12-18 18:00:00 805

原创 图变换器:为图数据增强神经网络架构

人工智能咨询培训老师叶梓 转载标明出处当面对图数据时,尤其是那些拓扑结构重要的图,传统的 Transformer 架构并未能充分利用图的连接性特征,导致性能受限。为了解决这一问题,新加坡南洋理工大学的研究人员提出了一种新的神经网络架构——图变换器(Graph Transformer),以泛化 Transformer 模型至任意图。

2024-12-18 13:44:31 744

原创 图表示学习中的Transformer:Graphormer的突破

人工智能咨询培训老师叶梓 转载标明出处在自然语言处理和计算机视觉等领域,Transformer架构已经成为主导选择。然而,在图级别的预测任务中,它的表现并不如主流的图神经网络(GNN)变体。这一现象引发了一个思考:Transformer是否适合图表示学习,以及如何使其在图表示学习中发挥作用。来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的研究人员共同提出了一种名为Graphormer的新型架构,该架构基于标准的Transformer架构,并在多个图表示学习任务上取得了优异的结果。

2024-12-05 20:00:00 1075

原创 人工智能大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲

叶梓,工学博士,高级工程师。现某大型上市企业资深技术专家。上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。🌟。

2024-12-05 14:48:29 1279

原创 大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲

叶梓,工学博士,高级工程师。现某大型上市企业资深技术专家。上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。🌟。

2024-11-28 20:00:00 836

原创 NodeFormer:一种用于节点分类的可扩展图结构学习 Transformer

人工智能咨询培训老师叶梓 转载标明出处现有的神经网络(GNNs)在处理大规模图数据时面临着一些挑战,如过度平滑、异质性、长距离依赖处理、边缘不完整性等问题,尤其是当输入图完全缺失时。为了解决这些问题,上海交通大学的研究者们人提出了一种名为NodeFormer的新型图结构学习Transformer。NodeFormer提出了一种全新的全对消息传递方案,通过一种核化的Gumbel-Softmax操作符来减少算法复杂度,使其与节点数量呈线性关系。

2024-11-28 15:01:07 1131

原创 图结构感知的Transformer:一种新的图表示学习方法

尽管图神经网络(GNNs)在处理图数据方面取得了显著成就,但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限,研究者们开始探索将Transformer架构应用于图表示学习。在此基础上,瑞士苏黎世联邦理工学院的研究团队提出了一种创新的方法——Structure-Aware Transformer(SAT),旨在通过在自注意力机制中引入基于子图的表示,增强模型对图结构的感知能力,从而在计算注意力时能够显式地考虑节点间的图结构信息。

2024-11-21 20:15:00 1115

原创 图神经网络的新篇章:通用、强大、可扩展的图变换器

图变换器(Graph Transformers, GTs)因其在处理节点间全局依赖关系方面的能力而受到广泛关注。然而,现有的GTs模型在处理大规模图时面临着计算复杂度高、泛化能力有限等问题。为了解决这些问题,蒙特利尔大学、麦吉尔大学、新加坡南洋理工大学等研究人员共同提出了一种新的GTs架构——通用、强大、可扩展(GPS)。这种图变换器不仅能够处理具有数百个节点的小规模图,还能扩展到具有数千个节点的大规模图,同时保持线性复杂度O(N + E)。

2024-11-21 16:01:54 597

原创 深度图变换器的新突破:DeepGraph

在图变换器领域,尽管其全局注意力机制在图结构数据处理上显示出了巨大潜力,但现有的图变换器模型却普遍较浅,通常不超过12层。这一现象引发了学者们对于“增加层数是否能进一步提升图变换器性能”的深入探讨。在北京大学和微软研究院的合作下,研究者们提出了一个关键问题:为何现有的图变换器在增加深度后,性能并未得到显著提升,甚至出现了性能瓶颈?

2024-11-13 20:30:00 891

原创 LIMA模型——大模型对齐的新方法

大模型通常在两个阶段进行训练:首先是从原始文本中进行无监督预训练,以学习通用表示;其次是通过大规模的指令微调和强化学习,以更好地适应最终任务和用户偏好。来自Meta AI、卡内基梅隆大学和特拉维夫大学研究人员提出了,通过LIMA模型,对这两种训练阶段的重要性进行了量化。LIMA(Less Is More for Alignment)是一个65B参数的LLaMa语言模型,它仅通过1,000个精心策划的提示和响应进行标准监督损失微调,而不使用任何强化学习或人类偏好建模。

2024-11-13 10:40:46 7007

原创 探索开放资源上指令微调语言模型的现状

开放模型在经过适当的指令调整后,性能可以与最先进的专有模型相媲美。但目前缺乏全面的评估,使得跨模型比较变得困难。来自Allen Institute for AI和华盛顿大学的研究人员们进行了一项全面的研究,探索了不同公开指令数据集对语言模型性能的影响。1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

2024-11-07 20:45:00 1871

原创 推动公平学习与身份归一化的视网膜神经疾病数据集

在机器学习领域,公平性(也称为公正性或平等性)是一个日益受到关注的话题,它对于社会的福祉至关重要。然而,目前缺乏专门用于公平学习且包含成像数据的公共医学数据集,这限制了该领域的进展。为了解决这一问题,哈佛医学院眼科AI实验室的研究团队提出了哈佛青光眼公平性(Harvard Glaucoma Fairness,简称Harvard-GF)数据集,这是一个包含3300名受试者的视网膜神经疾病数据集,涵盖了2D和3D成像数据,并针对青光病检测进行了种族群体的平衡。

2024-11-07 13:13:22 571

原创 利用语义搜索和混合查询策略提升RAG系统的准确性

人工智能咨询培训老师叶梓 转载标明出处在构建基于大模型(LLM)的生成式问答系统(Generative Q&A)时,检索增强生成(Retrieval-Augmented Generation, RAG)方法被广泛采用。RAG通过结合检索器(Retriever)和生成器(Generator)来实现,其中检索器负责从大量文档中提取最相关的信息,为语言模型提供上下文支持。然而,随着文档库规模的扩大,RAG的准确性面临挑战。

2024-11-05 16:45:00 1957

数据挖掘算法概要说明

数据挖掘、机器学习中各种常用模型的概念、算法汇总。内容包括:数据仓库、特征提取、模糊集、粗糙集、Fourier变换、小波变换、决策树、关联关则、kNN、聚类分析、朴素贝叶斯、EM、神经网络、遗传算法、支持向量机、隐Markov模型;提升模型、共同训练、主动学习、直推学习、广义EM算法、强化学习;学习机性能评估等。内容有一定的深度,不宜初学者。

2007-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除