自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (5)
  • 收藏
  • 关注

原创 Whisper 模型对应的硬件资源

Whisper 模型有多个版本(, , , , ),每个版本的硬件资源需求差异较大。具体依赖的硬件资源(如 CPU、GPU、内存等)主要取决于所使用的模型的大小和输入音频的长度。以下是不同模型所需硬件资源的大致情况:Whisper 模型有五个不同的版本,它们的大小和性能逐渐增大,分别是:小模型 (, , ):较小的模型(, , )可以在大部分现代 CPU 上运行,包括普通的桌面或笔记本 CPU,尽管处理速度会比 GPU 慢。大模型 (, ):这些模型由于参数量较大,对 CPU 的计算能力要求更高。推荐使用

2025-02-10 16:41:25 1252

原创 用于中文句子相似度判断的模型推荐

需要在语义匹配任务上进行微调,或者直接使用池化后的向量计算相似度。选择模型时,应根据任务复杂度、资源限制和实际需求权衡。

2024-12-19 14:47:26 2158

转载 无监督语义相似度哪家强?我们做了个比较全面的评测

由于BERT-flow计算成本明显大于BERT-whitening,因此我们没有复现对比BERT-flow的效果,但是从英文任务上可以看出,BERT-whitening和BERT-flow的效果通常是接近的,并且BERT-whitening通常还优于BERT-flow,因为whitening的效果应该是有代表性的了。),数据集里包含了多语种的释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对无监督方法来说算是比较难的任务,这里只保留了中文部分;

2024-12-12 13:59:09 46

原创 Token嵌入具体实现

Token 嵌入是将文本中的每个 Token 映射到一个固定维度的连续向量表示,这种嵌入捕捉了词语的语义信息和上下文依赖关系。以下将以 BERT 为例,详细介绍 Token 嵌入的实现过程。位置嵌入用于捕捉序列的顺序信息。BERT 的位置嵌入是一个固定的表(矩阵),不同位置的向量不同。将输入文本分解为 Token,生成子词单元。片段嵌入用于区分句子对任务中的句子 1 和句子 2。对于单句任务,片段嵌入默认为 0。每个 Token 通过查找嵌入矩阵,映射为固定维度的向量。

2024-12-12 11:06:29 380

原创 RAG和transformers的关系

这样的预训练生成模型。RAG 不同于传统的生成模型(如 GPT 系列),它通过检索外部信息来增强生成的内容,因此模型的生成过程不仅依赖于模型本身的知识,还依赖于从外部数据库或文档库中检索到的相关信息。:RAG 使用了 Transformer 作为生成模块的核心架构,同时结合检索器来提供外部知识,从而增强 Transformer 在面对需要领域知识的任务时的表现。:传统的 Transformer 模型(如 GPT 或 BERT)是单纯的生成或表示模型,它们的知识有限,仅限于模型训练时的数据。

2024-12-10 15:41:09 978

原创 KAG和transformers的关系:

Transformer 是 KAG 的核心技术框架,而 KAG 是对 Transformer 能力的扩展与增强,旨在结合外部知识库来完成知识驱动的自然语言生成任务。KAG 的检索模块需要从外部知识库中找到相关的信息,而 Dense Retrieval(密集检索)正是基于 Transformers 的技术。KAG 与 Transformers 的结合,不仅增强了语言生成的准确性,还为各种需要知识支持的任务开辟了新路径。在 KAG 的知识增强流程中,外部知识的检索和表示(embedding)通常由。

2024-12-10 15:39:36 618

原创 KAG模型

(如图谱、维基百科、专业文献等)来提升模型生成的准确性、深度和上下文相关性。部知识,提高生成模型在复杂任务中的表现,特别是对于一些需要背景知识或者语境上下文的生成任务。,尤其在回答问题、自动化摘要、生成问答等任务中,能够产生更具逻辑性和事实依据的输出。:基于 Transformer 的生成模型(如 GPT、BART、T5)。借助外部知识,生成结果更具真实性和准确性,降低模型生成不真实内容的风险。:在生成内容的过程中,利用外部知识库或实时检索的方式,向语言模型。:知识库和生成模型可独立扩展和优化。

2024-12-10 15:38:49 868

原创 RAG模型

结构(例如 BART 或 T5),通过编码器处理输入的查询和检索结果,再通过解码器生成输出文本。:在这个阶段,检索到的文档通常会与原始查询文本拼接,形成一个新的上下文输入。,能够在面对需要外部知识的任务时提供显著的优势。:生成器基于合并后的输入(即包括查询和检索到的文档片段)进行推理,生成最终的文本输出,例如回答问题、生成描述或执行其他文本生成任务。生成器的目标是基于输入的查询和相关的检索信息,生成更有根据、准确的文本输出。(例如,问题或对话上下文)一起组合成一个新的输入,这个组合的输入将传递给。

2024-12-10 15:37:30 906

原创 LLM模型

LLM 在许多自然语言处理任务中表现出色,如文本生成、机器翻译、情感分析、问答等。的方式在大规模的文本数据上进行预训练,之后可以通过微调(fine-tuning)来适应特定的任务。: LLM 可以用于各种自然语言处理任务(NLP),如文本生成、翻译、摘要、问答、情感分析等。: LLM 拥有数十亿甚至更多的参数,这使得它们能够捕捉到复杂的语言模式和知识。是通过大量文本数据进行预训练的语言模型,具备强大的语言理解与生成能力。(一个典型的 LLM)实现文本生成和推理的代码示例。的预训练,学习语言中的常识和知识,

2024-12-10 15:36:27 390

原创 Transformer模型举例

Transformer 架构的灵活性使得它被广泛应用于不同任务,衍生出了许多变体模型,包括编码器为核心的 BERT 系列、解码器为核心的 GPT 系列,以及结合两者的 Seq2Seq 模型(如 T5、BART)。Transformer 模型是基于 Transformer 架构的一类深度学习模型,自从其首次提出以来,已经衍生出了许多不同的变体和应用模型。Transformer 模型是基于 Transformer 架构的一类深度学习模型,自从其首次提出以来,已经衍生出了许多不同的变体和应用模型。

2024-12-10 15:35:41 1048

原创 SBERT模型的训练数据形式举例

NLI(Natural Language Inference)数据集是 SBERT 常用的训练数据形式,旨在学习句子对之间的逻辑关系。SBERT 的多语言版本(如 distiluse-base-multilingual-cased)可以使用跨语言句子对数据训练。通过这些多样化的训练数据形式,SBERT 学会了高效生成句子嵌入,使其在语义相似度计算、信息检索和文本聚类等任务中表现出色。在没有标注的句子对数据时,SBERT 可以利用自监督学习策略生成训练数据。学习句子对相似度分数(如 0 到 5)。

2024-12-10 15:26:34 969

原创 BERT 的输入处理过程(Token嵌入,句子嵌入等)

SBERT 使用与 BERT 相同的分词器(如 WordPiece 或 SentencePiece),将输入句子分解为子词(Tokens)。SBERT(Sentence-BERT)是基于 BERT 的模型,用于生成句子嵌入。经过分词和张量化的输入会被送入 SBERT 的编码器(基于 BERT 的 Transformer 模型)。经过池化后,SBERT 生成一个固定长度的向量(通常是 768 维),表示句子的全局语义嵌入。SBERT 的设计简化了句子对任务中的计算,并专注于生成句子的固定长度嵌入。

2024-12-10 15:24:45 632

原创 Token Embeddings(词元嵌入)

是现代 NLP 模型中的重要组成部分,通过将离散文本(Token)转换为连续向量,为语义表示奠定了基础。在 NLP 模型中,Token Embeddings 是将离散的文本数据转换为模型可以理解的数值表示的关键步骤。:在预训练模型(如 BERT、GPT)中,Token Embeddings 会通过 Transformer 的自注意力机制更新,生成上下文感知的表示。:Token Embeddings 提供了语义丰富的表示,是各种 NLP 任务(如情感分析、机器翻译、语义相似度计算)的基础。

2024-12-10 15:19:12 1088

原创 SBERT(Sentence-BERT)模型介绍

paraphrase-MPNet-base-v2:更强大的模型,适合更高精度的任务。:使用三元组(anchor、positive、negative)优化嵌入,使得相似句子的嵌入更接近,不相似句子的嵌入更远。SBERT 的提出解决了原始 BERT 模型在语义相似度计算中效率低下的问题。SBERT 对句子进行独立编码,只需计算一次句子嵌入,而不是每次对句子对重新计算。,例如自然语言推理任务(NLI)、语义文本相似度任务(STS)等。输入两个句子,计算它们之间的语义相似度(如使用余弦相似度)。

2024-12-10 15:10:55 2506 1

原创 SBERT、CoSENT和BETR以及transformers的区别和联系

这几个模型(SBERT、CoSENT、BETR)和框架(Transformers)都是围绕自然语言处理(NLP)的句子嵌入和语义理解任务展开的。它们的联系主要在于基于架构,并针对特定任务做了优化;区别则在于目标任务、优化策略、训练方法和适用场景等方面。Input IDs选择模型时应根据具体任务需求和数据特点权衡。

2024-12-10 14:49:53 757

原创 Transformer 模型介绍

每个输入单词(或词向量)会与其他所有单词的表示进行比较,通过计算它们的相似度来调整其在当前词表示中的权重,从而获得对该单词的上下文理解。:Transformer 适用于多种序列任务,包括文本生成、翻译、分类、问答等,且可以通过预训练(如 BERT、GPT 等)在多个任务上进行迁移学习。,该机制允许模型在处理某个词时,能够关注输入序列中其他所有词的信息,而不是仅仅依赖于固定窗口的局部信息。编码器的输出是一个上下文相关的表示,用于捕捉输入序列中每个词的语义。Transformer 模型的核心创新之一是。

2024-12-10 14:33:22 1098

原创 CoSENT训练和测试github代码实现

CoSENT(Cosine Sentence Transformer)是一种高效的句子嵌入模型,旨在通过优化余弦相似度来提升语义相似度计算的性能。CoSENT 的核心在于使用基于余弦相似度的排序损失函数来训练模型。通过参考上述资源,您可以深入了解 CoSENT 的实现细节,并在自己的项目中应用该模型。该仓库详细介绍了 CoSENT 的理论背景、实现细节,并提供了训练和测试的代码示例。该文章深入阐述了 CoSENT 的设计理念、实现方法以及在多个数据集上的实验表现。

2024-12-10 14:13:14 494

原创 SBERT和CoSENT模型的区别和联系

都是基于 Transformer 的句子嵌入模型,旨在通过生成语义嵌入来高效计算句子间的相似度。二者在任务目标和实现方式上存在紧密的联系,同时在具体实现细节上也有显著的区别。,尤其是在短文本匹配和语义搜索中性能更优。CoSENT 示例:计算语义相似度。在中文语料上的实验结果表明,

2024-12-10 14:10:11 905

原创 CoSENT模型介绍和流程

是一种高效的语义相似度计算模型,专为生成句子嵌入而设计,改进了传统的 Sentence-BERT(SBERT)模型。它通过优化损失函数和训练流程,显著提高了计算语义相似度的性能,尤其适用于中文语料和语义任务。

2024-12-10 13:55:08 978

原创 SBERT和BERT的区别和联系

和都是基于 Transformer 架构的模型。SBERT 是 BERT 的一个改进变体,针对句子嵌入和语义相似度计算任务进行了优化。

2024-12-09 11:17:25 1075

原创 训练集、测试集loss容易出现的问题总结

训练集、测试集loss容易出现的问题总结1、train loss 不断下降,test loss不断下降:说明网络仍在学习;train loss 不断下降,test loss趋于不变:说明网络过拟合;train loss 趋于不变,test loss不断下降:说明数据集100%有问题;train loss 趋于不变,test loss趋于不变:说明学习遇到瓶颈,需要减小学习率或批量数目;或者是数据集有问题(数据集标注错误数据比较多)train loss 不断上升,test los...

2020-07-03 12:03:03 1603

原创 谷歌发表论文EfficientNet 重新思考CNN模型缩放

谷歌发表论文EfficientNet 重新思考CNN模型缩放来源:yxw•2019-06-03 14:19•3034次阅读0谷歌AI研究部门华人科学家再发论文《EfficientNet:重新思考CNN模型缩放》,模型缩放的传统做法是任意增加CNN的深度和宽度,或使用更大的输入图像分辨率进行训练,而使用EfficientNet使用一组固定额缩放系数统一缩放每个维度,超越了当先最先进图像识别网络的准确率,效率提高了10倍,而且更小。目前提高CNN精度的方法,主要是通过任意增加CNN深度或...

2020-06-04 09:51:51 390

波尔兹曼机RBM

这是有关深度学习的一个资料 基本类型是RBM

2015-04-11

C++面试、笔试题目大全

这是有关C++的面试 笔试资料收集 有需要的自行下载

2015-04-11

c++面试题大全

这是有关C++的面试题 需要的请自行下载

2015-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除