自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Knowledge Graph-Enhanced Large Language Models via Path Selection

样本编码是KELP方法中的一个关键步骤,旨在通过预训练的句子编码器M对输入问题q和提取的知识路径进行编码,以获得它们的距离(即路径对LLMs输出的潜在影响),从而确保捕捉到路径中有潜在影响的有用知识。:在4-shot、8-shot和12-shot配置下,KELP在强语义知识任务中的表现优于基于LLM的证据方法,特别是在12-shot场景中,KELP在1跳强语义知识任务中的检索性能超过了基于LLM的证据方法。:在少样本学习设置中,KELP的表现超过了一些全监督模型,接近这些模型中的最高准确率基准。

2024-11-10 17:40:58 1143

原创 LightRAG

1.研究问题:这篇文章要解决的问题是如何增强大型语言模型(LLMs)的信息检索和生成能力,特别是通过集成外部知识源来提供更准确和上下文相关的响应。:该问题的研究相关工作有:Sudhi等人(2024)、Es等人(2024)、Salemi和Zamani(202。这篇论文通过集成基于图的索引方法,提出了一种改进的检索增强生成(RAG)系统LightRAG。Tu等人(2024)提出的适应特定领域知识的RAG系统;:在处理大规模语料库和复杂查询时,基于图的RAG系统(如LightRAG和GraphRAG)显著优。

2024-10-25 10:35:42 1039

原创 Generate-on-Graph

为了解决大型语言模型(LLMs)在知识不足和幻觉问题上的困扰,众多研究探索了将LLMs与知识图谱(KGs)结合的方法。然而,这些方法通常在完整的知识图谱问答(KGQA)上进行评估,其中每个问题所需的所有事实三元组都被给定的知识图谱完全覆盖。在这种情况下,LLMs主要作为代理在知识图谱中找到答案实体,而不是有效地整合LLMs的内部知识和外部知识源,例如知识图谱。实际上,知识图谱常常是不完整的,无法涵盖回答问题所需的所有知识。

2024-10-20 17:17:34 1039

原创 think on graph

虽然大型语言模型(LLMs)在各种任务中取得了显著的成功,但在需要深入和负责任推理的场景中,它们常常难以应对幻觉问题。通过引入外部知识图谱(KG)来辅助LLM推理,这些问题可以部分得到解决。在本文中,我们提出了一种新的LLM-KG融合范式“LLM ⊗ KG”,它将LLM视为一个代理,交互式地探索知识图谱上的相关实体和关系,并基于检索到的知识进行推理。

2024-10-13 13:18:56 925

原创 精读:《Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question

本文提出了一种新型模型——动态知识记忆增强的多步图推理(DMMGR),用于基于知识的可视化问答(Knowledge-based VQA)。该模型通过在关键值知识记忆模块和空间感知图像图上执行显式和隐式推理来处理知识库(KB)和图像信息。记忆模块在每个推理步骤中学习动态知识表示,并生成知识感知的问题表示,用于指导图像图上的图注意力操作。该模型在KRVQR和FVQA数据集上取得了新的最佳准确性,并通过消融实验验证了模型各部分的有效性。

2024-09-08 16:36:47 345

原创 DMMGR论文翻译

基于知识的视觉问答(VQA)是一种视觉-语言任务,要求智能体(agent)利用在给定图像中未呈现的知识,正确回答与图像相关的问题。这不仅是一个比常规VQA更具挑战性的任务,同时也是构建通用VQA系统的重要一步。现有的大多数基于知识的VQA系统处理知识和图像信息的方式相似,忽视了知识库(KB)包含关于三元组的完整信息这一事实,而提取的图像信息可能不完整,因为两个对象之间的关系可能缺失或被错误检测。

2024-09-08 16:29:18 1063

原创 VCTP论文精读

该框架用于基于知识的可视化推理,可以理解查询问题,关注图像中的关键视觉概念,检索支持证据,并最终以逐步的方式得出答案。• 与外部知识结合的挑战:知识型视觉推理要求模型不仅要理解图像内容,还要能够回忆开放世界知识,并执行逐步逻辑推理以得出答案,这增加了推理的复杂性。• 视觉感知与语言推理的分离:以往的工作通常将视觉感知和基于语言的推理视为两个独立的模块,没有在整个推理过程中同时关注这两个模块。• 实验验证:在多个知识基础的视觉推理数据集上进行实验,验证了VCTP的性能优势和推理过程的透明度。

2024-09-01 16:31:22 1028

原创 VCTP(Visual Chain-of-Thought Prompting for Knowledge-Based Visual Reasoning)论文

知识型视觉推理仍然是一个艰巨的任务,因为它不仅要求机器从视觉场景中解释概念和关系,而且还需要将它们与外部世界知识联系起来,对开放世界问题进行推理链。然而,以前的工作将视觉感知和基于语言的推理视为两个独立的模块,在推理的所有阶段都没有同时关注这两个模块。为此,我们提出了一种知识型推理的视觉思维链提示(VCTP),它涉及视觉内容与自然语言的交互,以迭代的逐步推理方式进行。VCTP包含三个阶段:看、想和确认。看阶段扫描图像,并用视觉感知模型将视觉概念候选与地面真实情况相结合。

2024-08-26 11:52:49 1046

原创 graphrag论文精读

使用社区检测算法(如Leiden算法)将图谱划分为一组密切相关的实体社区。接着,LLM生成这些社区的摘要,为每个社区提供一个总结性描述。

2024-08-25 15:25:21 877

原创 graphrag论文

检索增强型生成(RAG)的使用,可以从外部知识源检索相关信息,使大型语言模型(LLMs)能够回答涉及私有和/或之前未见过的文档集合的问题。然而,RAG在针对整个文本语料库的全局问题上失败了,例如“数据集中的主要主题是什么?”因为这本质上是一个查询聚焦的摘要(QFS)任务,而不是一个明确的检索任务。与此同时,以前的QFS方法无法扩展到典型RAG系统所索引的文本量。为了结合这些对比方法的优势,我们提出了一种图RAG方法来解答私人文本语料库上的问题,该方法随着用户问题的普遍性和要索引的源文本量而扩展。

2024-08-21 10:33:02 755

原创 机器学习周报第39周

与静态图像中的目标检测相比,视频中的目标检测由于图像质量下降而更具挑战性。许多以前的方法都通过链接视频中的相同对象以形成管状结构,并在管状结构中聚合分类得分,从而利用时间上下文信息。这些方法首先使用静态图像检测器来检测每帧中的对象,然后根据不同帧中对象框之间的空间重叠情况或预测相邻帧之间的对象移动情况,来链接这些检测到的对象。在本文中,我们专注于获得高质量的对象链接结果以实现更好的分类。与以前通过检查相邻帧之间的框来链接对象的方法不同,我们建议在同一帧中链接。

2024-04-28 16:45:17 1107

原创 机器学习周报第48周

在目标检测中,基于关键点的方法经常会遇到大量错误对象边界框的问题,这可能是由于在裁剪区域内缺乏额外的评估。本文提出了一种有效的解决方案,该方案以最小的成本探索个体裁剪区域内的视觉模式。我们的框架建立在具有代表性的单阶段基于关键点的检测器CornerNet之上。我们的方法,名为CenterNet,将每个对象检测为关键点的三元组,而不是点对,从而提高了精确度和召回率。因此,我们设计了两个定制模块,级联角点池化和中心池化,它们丰富了由左上角和右下角收集的信息,并提供了来自中心区域的更多可识别信息。

2024-04-21 15:59:12 1255

原创 机器学习周报第37周

目录一、文献阅读:You Only Look Once: Unified, Real-Time Object Detection1.1 摘要1.2 背景1.3 论文模型1.4 网络设计1.5 YOLO的局限性1.6 实现代码一、文献阅读:You Only Look Once: Unified, Real-Time Object Detection1.1 摘要YOLO是一种新的目标检测方法。先前的目标检测工作使用分类器来执行检测。相反,我们将目标检测框定为空间分离的边界框和相关类概率的回归问题。单个神经

2024-04-14 10:26:10 1037

原创 机器学习周报第36期

与静态图像中的目标检测相比,视频中的目标检测由于图像质量下降而更具挑战性。许多以前的方法都通过链接视频中的相同对象以形成管状结构,并在管状结构中聚合分类得分,从而利用时间上下文信息。这些方法首先使用静态图像检测器来检测每帧中的对象,然后根据不同帧中对象框之间的空间重叠情况或预测相邻帧之间的对象移动情况,来链接这些检测到的对象。在本文中,我们专注于获得高质量的对象链接结果以实现更好的分类。与以前通过检查相邻帧之间的框来链接对象的方法不同,我们建议在同一帧中链接。

2024-04-06 08:56:27 2199

原创 机器学习周报第35期

YOLO是一种新的目标检测方法。先前的目标检测工作使用分类器来执行检测。相反,我们将目标检测框定为空间分离的边界框和相关类概率的回归问题。单个神经网络在一次评估中直接从完整图像中预测边界框和类别概率。由于整个检测管道是一个单一的网络,因此可以直接对检测性能进行端到端的优化。YOLO的统一架构速度极快。我们的基础YOLO模型以每秒45帧的速度实时处理图像。该网络的一个较小的版本,快速YOLO,每秒处理一个惊人的155帧,同时还实现了其他实时探测器的mAP的两倍。

2024-03-31 09:08:29 868

原创 机器学习周报第34周

一个卷积神经网络主要由以下5层组成:数据输入层/ Input layer卷积计算层/ CONV layerReLU激励层 / ReLU layer池化层 / Pooling layer全连接层 / FC layer数据输入层该层要做的处理主要是对原始图像数据进行预处理,其中包括:去均值:把输入数据各个维度都中心化为0,如下图所示,其目的就是把样本的中心拉回到坐标系原点上。

2024-03-24 20:42:39 682

原创 机器学习周报第33周

本周学习了一篇基于STFGNNs的多变量时间序列预测的论文,论文的模型为DSTIGNN(动态时空交互图神经网络),主要包括如下四个模块:时空交互学习模块(Spatiotemporal Interactive Learning Module)、动态图推理模块(Dynamic Graph Inference Module)、动态图卷积模块(Dynamic Graph Convolution Module)以及输出模块(Output Module)。

2024-03-17 07:15:50 2521

原创 机器学习周报第32周

本周学习了多视角自注意力网络,在统一的框架下联合学习输入句子的不同语言学方面。具体来说,提出并利用多种诱导性偏差来规则化常规的注意力分配。然后通过混合注意力机制聚合不同的视图,以方便地量化和利用特定的视图及其相关的表示。Self-attention是一种在自然语言处理(NLP)和深度学习领域中广泛应用的机制。它允许模型关注输入序列中的不同部分,并根据这些部分生成输出。通过学习输入序列中不同位置之间的关系,self-attention可以帮助模型更好地理解输入并产生更有意义的输出。

2024-03-10 09:01:50 1115 2

原创 机器学习周报第31周

该论文提出了一个实时的模态自适应情感识别(MAER)系统,解决了现有面部表情识别系统在可靠性和实时操作方面的限制。该系统通过并行处理和模态自适应融合来改善情感识别的性能和可靠性。通过实时试验,该系统的准确性比仅使用外部信号(视频和音频)的情感识别高出33%。该系统能够推断出真实的情感,即使在内部和外部状态之间存在情感不匹配的情况下,通过给予真实情感信号更大的权重。该系统利用轻量级网络和可穿戴设备进行信号采集,实现了实时计算和实际应用。

2024-03-03 21:30:01 1126 1

原创 机器学习周报第30周

准确的光伏功率预测正在成为将光伏电站并入电网、调度和保障电网安全的强制性任务。本文提出了一种利用LSTM-TCN预测光伏功率的新模型。它由长短期记忆和时间卷积网络模型之间的组合组成。LSTM用于从输入数据中提取时态特征,然后与TCN结合,在特征和输出之间建立连接。所提出的模型已使用包含测量光伏功率的历史时间序列的数据集进行了测试。然后,在不同季节、时段预报、多云、晴朗和间断性天气下,与LSTM和TCN模型的精度进行了比较。对于一步预测,结果表明,所提出的模型优于LSTM和TCN模型。

2024-01-28 10:02:25 2319 1

原创 机器学习周报第29周

本周学习了多视角自注意力网络,在统一的框架下联合学习输入句子的不同语言学方面。具体来说,提出并利用多种诱导性偏差来规则化常规的注意力分配。然后通过混合注意力机制聚合不同的视图,以方便地量化和利用特定的视图及其相关的表示。Self-attention是一种在自然语言处理(NLP)和深度学习领域中广泛应用的机制。它允许模型关注输入序列中的不同部分,并根据这些部分生成输出。通过学习输入序列中不同位置之间的关系,self-attention可以帮助模型更好地理解输入并产生更有意义的输出。

2024-01-21 19:23:19 1094 1

原创 机器学习周报第28周

本周阅读了一篇混沌时间序列预测的论文,论文模型主要使用的是时间卷积网络(Temporal Convolutional Network,TCN)、LSTM以及GRU。在数据集方面除了使用现实的时间序列数据外,还通过若干混沌系统生成了一些混沌的时间序列数据,这些数据没有现实方面的意义,但可以用来证明论文模型的实用性。因为混沌时间序列在现实世界普遍存在,例如水质,股票,天气等,所以论文模型也有运用于预测的潜力。

2024-01-14 16:43:08 1328 2

原创 机器学习周报第27周

本周阅读了一篇混沌时间序列预测的论文,论文模型主要使用的是时间卷积网络(Temporal Convolutional Network,TCN)、LSTM以及GRU。在数据集方面除了使用现实的时间序列数据外,还通过若干混沌系统生成了一些混沌的时间序列数据,这些数据没有现实方面的意义,但可以用来证明论文模型的实用性。因为混沌时间序列在现实世界普遍存在,例如水质,股票,天气等,所以论文模型也有运用于水质预测的潜力。

2024-01-07 15:00:07 1386

原创 机器学习周报第26周

本周学习了简化attention计算量的一些方法,包括Local Attention、Stride Attention、Global Attention、Clustering、Learnable pattern、(V*K)*Q以及Synthesizer。这些方法有些是从减少Attention Matrix的计算量入手,有些是从改变Attention的矩阵相乘顺序入手,还有一些甚至完全抛弃矩阵乘法直接由机器学习attention。

2023-12-30 20:33:08 1046 2

原创 机器学习周报第25周

本周初步学习了GAN的一些基本知识,包括如何将神经网络作为生成器来产生满足需要的分布的输出,以及为什么需要让神经网络按照需要的分布进行输出。同时还学习了GAN的一些基本概念和原理,了解了GAN实现的目标和算法过程。最后使用代码实现了一个GAN的应用。本周还阅读了一篇关于水质预测的文章,该文章使用BiGRU作为基础模型,同时结合了EWT数据分解和FCM聚类方法。

2023-12-24 05:00:00 776

原创 机器学习周报24周

本周开启了Transformer的学习,初步理解了Transformer编码器的原理以及解码器自回归的解码方式,基于所学的基本原理,实现了一个简单的Transformer编码器,输出的结果为编码器输出张量的形状。本周还阅读了一篇基于Transformer的论文,了解了一种新的基于Transformer的预测模型TFT,还了解了一种新的超参数优化方式:自适应差分进化算法。

2023-12-17 10:11:20 918

原创 机器学习周报第23周

在深度学习中,卷积神经网络(CNN)是一种被广泛应用于图像处理和其他领域的神经网络架构。卷积层、池化层以及适当的填充和步长设置是构建有效的CNN模型的关键组成部分。本文将讨论这些概念,特别是涉及到填充、卷积步长和池化层的影响。在卷积操作中,填充是在输入数据周围添加额外的值,以便保持特征图的大小。填充有助于防止特征图尺寸的过度减小,确保在卷积过程中保留输入图像的边缘信息。适当的填充可以改善模型的性能,特别是在网络的边缘部分。步长定义了卷积核在输入上滑动的步长。

2023-12-10 15:53:15 962

原创 机器学习周报第22周

边缘检测是计算机视觉中一项基础而重要的任务,其目标是识别图像中的物体边界或显著特征。该技术在图像处理、目标检测和图像分割等领域具有广泛应用。本文着重介绍了计算机视觉中的边缘检测技术,重点探讨了一些经典的方法和算法。边缘检测在计算机视觉中扮演着至关重要的角色,有助于提取图像中的关键信息。传统的边缘检测方法包括Sobel、Canny等经典算法,它们基于梯度或滤波器的操作,能够有效地识别图像中的边缘。

2023-12-03 10:23:18 869

原创 机器学习周报21周

本研究提出了一种名为SAN-CS的自注意力联合表示学习模型,用于代码搜索。通过利用自注意力网络构建代码搜索模型,SAN-CS能够充分捕捉代码片段和描述的上下文信息,并建立它们之间的语义关系。实验结果表明,SAN-CS在性能和执行效率方面优于现有模型。本文提出了一种基于自注意力网络的代码搜索模型SAN - CS。不同于使用LSTM或CNN,我们首先直接使用自注意力网络来表示代码片段及其查询,然后使用联合表示网络对代码和查询向量进行额外的联合表示。

2023-11-26 15:43:16 853

原创 机器学习周报第20周

词嵌入是自然语言处理领域中的一项重要技术,它通过将词语映射到实数向量空间中,实现了对语义信息的有效表示。情感分类是NLP中的一个常见任务,旨在识别文本中的情感倾向。这篇摘要将关注于如何利用词嵌入技术来提升情感分类的性能。在词嵌入方面,我们将介绍诸如Word2Vec、GloVe等经典的词嵌入模型,以及最近流行的预训练语言模型(如BERT、GPT)对词嵌入的演进。这些模型通过学习上下文相关的词向量,使得它们更好地捕捉了词语之间的语义关系,为情感分类任务提供了更丰富的特征表示。

2023-11-19 13:41:31 72

原创 机器学习周报第19周

剪枝和量化技术是深度学习中常用的模型优化方法,而长短时记忆网络(LSTM)则是一种有效处理序列数据的循环神经网络。这篇摘要将聚焦于如何在LSTM模型中应用剪枝和量化技术,以提高模型的效率和减小资源消耗。在剪枝方面,我们探讨了通过去除LSTM模型中不必要的神经元或连接来减小模型规模的方法。通过精心设计的剪枝算法,可以在保持模型性能的同时显著减小模型的参数量,加速推理过程,并使其更适用于嵌入式设备等资源受限的场景。

2023-11-12 20:56:51 117

原创 机器学习周报第十八周

知识蒸馏是一种模型压缩技术,通常用于将大型、复杂的神经网络压缩成小型、高效的模型。这通过在大型教师模型的输出上训练小型学生模型来实现。知识蒸馏通过传输教师模型的“知识”或输出概率分布到学生模型,从而提高学生模型的性能和泛化能力。剪枝是一种神经网络优化技术,旨在减小模型的大小和计算复杂度,同时保持性能。通过剪除不必要的神经元或连接,剪枝可以精简模型,减小存储和计算需求,同时保持模型的预测性能。量化是将神经网络的权重和激活从浮点数转换为更低位宽度的整数或定点数的过程。

2023-11-05 19:18:45 185 1

原创 机器学习周报第十七周

注意力机制是一种模仿人类注意力机制的方法,它允许神经网络在处理序列数据时重点关注相关元素,并忽略不相关的部分。这一思想在自然语言处理中得到了广泛应用,它使得模型能够更好地理解语言结构和语义关系。Transformer 是一种深度学习模型,引入了自注意力机制,它是处理序列数据的重要工具。Transformer 的创新之一是自注意力机制,它允许模型同时处理输入序列的不同位置,从而更好地捕捉长距离的依赖关系。这一模型在机器翻译、文本生成和语言理解等任务中表现出色。

2023-10-22 16:49:11 172 1

原创 机器学习周报第十六周

词嵌入、序列到序列模型(Seq2Seq)以及注意力机制是深度学习中的三个重要组成部分,它们共同推动了自然语言处理的发展。词嵌入是将文本数据映射到低维向量空间的技术,使得计算机能够更好地理解和处理文本数据。Seq2Seq模型引入了编码器-解码器结构,可以处理序列到序列的任务,如机器翻译和文本摘要生成。而注意力机制则允许模型在处理长序列时关注输入序列的不同部分,从而提高了模型的性能和泛化能力。词嵌入为自然语言处理提供了有效的文本表示方法,使得模型能够更好地处理文本数据。

2023-10-15 21:44:31 163 1

原创 机器学习周报第15周

RNN是一种经典的循环神经网络,具有简单的结构。它适用于处理短序列数据,但在处理长序列时可能会面临梯度消失或梯度爆炸问题。RNN的主要问题是不能捕捉长距离依赖关系,因为它们只能考虑当前时刻的输入和前一时刻的隐藏状态。GRU(门控循环单元):GRU是一种改进的循环神经网络,具有较简单的结构。它通过门控机制来控制信息的流动,包括更新门和重置门,从而减轻了梯度消失问题。GRU相对于标准RNN更易于训练,同时在某些任务上表现出色。LSTM(长短时记忆网络):LSTM是一种强大的循环神经网络,具有更复杂的结构。

2023-10-08 21:36:12 74 1

原创 机器学习周报第十四周

深层神经网络模型和循环神经网络(RNN)是深度学习中的两个关键组成部分,但它们都面临着一些挑战。为了不断提高这些模型的性能,研究人员提出了各种改善方法。对于深层神经网络,这些方法包括使用更深的层次结构,引入残差连接,批次归一化和不同类型的激活函数,以应对梯度消失和过拟合等问题。而在RNN中,改进的方法涵盖了长短时记忆网络(LSTM)和门控循环单元(GRU)等新的结构,以及双向RNN和注意力机制等技术,以捕捉序列数据中的长距离依赖性和提高模型的性能。

2023-10-01 15:42:44 91

原创 机器学习周报第十三周

深层神经网络代表了深度学习领域的重要进展,但它们也面临一些挑战,如梯度消失和过拟合。为了克服这些问题,研究人员提出了多种改善神经网络的方法。其中包括使用更深的网络结构、引入激活函数、批次归一化以及使用更好的初始化策略等。这些方法的共同目标是提高模型的性能和训练稳定性,使其能够更好地适应各种复杂任务。改善神经网络的方法不仅对学术界有重要意义,还在实际应用中产生了巨大影响,推动了深度学习技术的发展。深层神经网络是深度学习的重要组成部分,但它们在训练过程中可能会遇到一些问题。

2023-09-24 19:23:54 138 1

原创 机器学习周报第十二周

浅层神经网络和深度神经网络代表了神经网络在深度学习中的两个重要范畴,它们有着不同的结构和特点。浅层神经网络通常指的是只包含少数隐藏层的神经网络。这些网络的结构相对简单,参数较少。浅层网络适用于一些简单的任务,如线性回归或二分类问题。由于网络规模较小,训练和推理速度较快,因此在资源有限或需要快速响应的场景中具有优势。深度神经网络则是指包含多个隐藏层的神经网络。这些网络结构更加复杂,可以用来处理大规模和高维度的数据以及复杂的特征表示。

2023-09-17 20:50:12 111 1

原创 机器学习周报第十一周

生成器(Generator)和鉴别器(Discriminator)是深度学习中的两个重要组件,它们在生成对抗网络(GAN)中起着关键作用。生成器旨在生成与真实数据分布相似的合成数据,而鉴别器则负责区分真实数据和生成器生成的数据。GAN的目标是通过不断的博弈过程,使生成器生成的数据变得越来越逼真,以至于鉴别器难以区分真伪。Wasserstein GAN(WGAN)是GAN的一个变种,它引入了Wasserstein距离作为损失函数,用于衡量生成数据与真实数据分布之间的距离。

2023-08-27 09:17:16 207 1

原创 机器学习周报第十周

Transformer是一种重要的深度学习模型,已在自然语言处理、图像处理等领域取得了显著成就。它引入了自注意力机制,通过自动学习输入序列中各个元素之间的关联性,实现了长距离依赖关系的建模。Transformer由编码器和解码器组成,每个模块都包含多头自注意力和前馈神经网络。Transformer的解码器模块是在生成输出序列时起作用的关键部分。解码器负责逐步生成目标序列中的每个元素,并在每个时间步骤中生成一个新的标记。self-attention也可以通过很多方法来加速计算。

2023-08-13 19:30:00 198 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除