panshengnan-优快云博客

原创 Whisper 模型对应的硬件资源

Whisper 模型有多个版本（, , , , ），每个版本的硬件资源需求差异较大。具体依赖的硬件资源（如 CPU、GPU、内存等）主要取决于所使用的模型的大小和输入音频的长度。以下是不同模型所需硬件资源的大致情况：Whisper 模型有五个不同的版本，它们的大小和性能逐渐增大，分别是：小模型 (, , )：较小的模型（, , ）可以在大部分现代 CPU 上运行，包括普通的桌面或笔记本 CPU，尽管处理速度会比 GPU 慢。大模型 (, )：这些模型由于参数量较大，对 CPU 的计算能力要求更高。推荐使用

2025-02-10 16:41:25 1252

原创用于中文句子相似度判断的模型推荐

需要在语义匹配任务上进行微调，或者直接使用池化后的向量计算相似度。选择模型时，应根据任务复杂度、资源限制和实际需求权衡。

2024-12-19 14:47:26 2158

转载无监督语义相似度哪家强？我们做了个比较全面的评测

由于BERT-flow计算成本明显大于BERT-whitening，因此我们没有复现对比BERT-flow的效果，但是从英文任务上可以看出，BERT-whitening和BERT-flow的效果通常是接近的，并且BERT-whitening通常还优于BERT-flow，因为whitening的效果应该是有代表性的了。），数据集里包含了多语种的释义对和非释义对，即识别一对句子是否具有相同的释义（含义），特点是具有高度重叠词汇，对无监督方法来说算是比较难的任务，这里只保留了中文部分；

2024-12-12 13:59:09 46

原创 Token嵌入具体实现

Token 嵌入是将文本中的每个 Token 映射到一个固定维度的连续向量表示，这种嵌入捕捉了词语的语义信息和上下文依赖关系。以下将以 BERT 为例，详细介绍 Token 嵌入的实现过程。位置嵌入用于捕捉序列的顺序信息。BERT 的位置嵌入是一个固定的表（矩阵），不同位置的向量不同。将输入文本分解为 Token，生成子词单元。片段嵌入用于区分句子对任务中的句子 1 和句子 2。对于单句任务，片段嵌入默认为 0。每个 Token 通过查找嵌入矩阵，映射为固定维度的向量。

2024-12-12 11:06:29 380

原创 RAG和transformers的关系

这样的预训练生成模型。RAG 不同于传统的生成模型（如 GPT 系列），它通过检索外部信息来增强生成的内容，因此模型的生成过程不仅依赖于模型本身的知识，还依赖于从外部数据库或文档库中检索到的相关信息。：RAG 使用了 Transformer 作为生成模块的核心架构，同时结合检索器来提供外部知识，从而增强 Transformer 在面对需要领域知识的任务时的表现。：传统的 Transformer 模型（如 GPT 或 BERT）是单纯的生成或表示模型，它们的知识有限，仅限于模型训练时的数据。

2024-12-10 15:41:09 978

原创 KAG和transformers的关系:

Transformer 是 KAG 的核心技术框架，而 KAG 是对 Transformer 能力的扩展与增强，旨在结合外部知识库来完成知识驱动的自然语言生成任务。KAG 的检索模块需要从外部知识库中找到相关的信息，而 Dense Retrieval（密集检索）正是基于 Transformers 的技术。KAG 与 Transformers 的结合，不仅增强了语言生成的准确性，还为各种需要知识支持的任务开辟了新路径。在 KAG 的知识增强流程中，外部知识的检索和表示（embedding）通常由。

2024-12-10 15:39:36 618

原创 KAG模型

（如图谱、维基百科、专业文献等）来提升模型生成的准确性、深度和上下文相关性。部知识，提高生成模型在复杂任务中的表现，特别是对于一些需要背景知识或者语境上下文的生成任务。，尤其在回答问题、自动化摘要、生成问答等任务中，能够产生更具逻辑性和事实依据的输出。：基于 Transformer 的生成模型（如 GPT、BART、T5）。借助外部知识，生成结果更具真实性和准确性，降低模型生成不真实内容的风险。：在生成内容的过程中，利用外部知识库或实时检索的方式，向语言模型。：知识库和生成模型可独立扩展和优化。

2024-12-10 15:38:49 868

原创 RAG模型

结构（例如 BART 或 T5），通过编码器处理输入的查询和检索结果，再通过解码器生成输出文本。：在这个阶段，检索到的文档通常会与原始查询文本拼接，形成一个新的上下文输入。，能够在面对需要外部知识的任务时提供显著的优势。：生成器基于合并后的输入（即包括查询和检索到的文档片段）进行推理，生成最终的文本输出，例如回答问题、生成描述或执行其他文本生成任务。生成器的目标是基于输入的查询和相关的检索信息，生成更有根据、准确的文本输出。（例如，问题或对话上下文）一起组合成一个新的输入，这个组合的输入将传递给。

2024-12-10 15:37:30 906

原创 LLM模型

LLM 在许多自然语言处理任务中表现出色，如文本生成、机器翻译、情感分析、问答等。的方式在大规模的文本数据上进行预训练，之后可以通过微调（fine-tuning）来适应特定的任务。： LLM 可以用于各种自然语言处理任务（NLP），如文本生成、翻译、摘要、问答、情感分析等。： LLM 拥有数十亿甚至更多的参数，这使得它们能够捕捉到复杂的语言模式和知识。是通过大量文本数据进行预训练的语言模型，具备强大的语言理解与生成能力。（一个典型的 LLM）实现文本生成和推理的代码示例。的预训练，学习语言中的常识和知识，

2024-12-10 15:36:27 390

原创 Transformer模型举例

Transformer 架构的灵活性使得它被广泛应用于不同任务，衍生出了许多变体模型，包括编码器为核心的 BERT 系列、解码器为核心的 GPT 系列，以及结合两者的 Seq2Seq 模型（如 T5、BART）。Transformer 模型是基于 Transformer 架构的一类深度学习模型，自从其首次提出以来，已经衍生出了许多不同的变体和应用模型。Transformer 模型是基于 Transformer 架构的一类深度学习模型，自从其首次提出以来，已经衍生出了许多不同的变体和应用模型。

2024-12-10 15:35:41 1048

原创 SBERT模型的训练数据形式举例

NLI（Natural Language Inference）数据集是 SBERT 常用的训练数据形式，旨在学习句子对之间的逻辑关系。SBERT 的多语言版本（如 distiluse-base-multilingual-cased）可以使用跨语言句子对数据训练。通过这些多样化的训练数据形式，SBERT 学会了高效生成句子嵌入，使其在语义相似度计算、信息检索和文本聚类等任务中表现出色。在没有标注的句子对数据时，SBERT 可以利用自监督学习策略生成训练数据。学习句子对相似度分数（如 0 到 5）。

2024-12-10 15:26:34 969

原创 BERT 的输入处理过程（Token嵌入，句子嵌入等）

SBERT 使用与 BERT 相同的分词器（如 WordPiece 或 SentencePiece），将输入句子分解为子词（Tokens）。SBERT（Sentence-BERT）是基于 BERT 的模型，用于生成句子嵌入。经过分词和张量化的输入会被送入 SBERT 的编码器（基于 BERT 的 Transformer 模型）。经过池化后，SBERT 生成一个固定长度的向量（通常是 768 维），表示句子的全局语义嵌入。SBERT 的设计简化了句子对任务中的计算，并专注于生成句子的固定长度嵌入。

2024-12-10 15:24:45 632

原创 Token Embeddings（词元嵌入）

是现代 NLP 模型中的重要组成部分，通过将离散文本（Token）转换为连续向量，为语义表示奠定了基础。在 NLP 模型中，Token Embeddings 是将离散的文本数据转换为模型可以理解的数值表示的关键步骤。：在预训练模型（如 BERT、GPT）中，Token Embeddings 会通过 Transformer 的自注意力机制更新，生成上下文感知的表示。：Token Embeddings 提供了语义丰富的表示，是各种 NLP 任务（如情感分析、机器翻译、语义相似度计算）的基础。

2024-12-10 15:19:12 1088

原创 SBERT（Sentence-BERT）模型介绍

paraphrase-MPNet-base-v2：更强大的模型，适合更高精度的任务。：使用三元组（anchor、positive、negative）优化嵌入，使得相似句子的嵌入更接近，不相似句子的嵌入更远。SBERT 的提出解决了原始 BERT 模型在语义相似度计算中效率低下的问题。SBERT 对句子进行独立编码，只需计算一次句子嵌入，而不是每次对句子对重新计算。，例如自然语言推理任务（NLI）、语义文本相似度任务（STS）等。输入两个句子，计算它们之间的语义相似度（如使用余弦相似度）。

2024-12-10 15:10:55 2506 1

原创 SBERT、CoSENT和BETR以及transformers的区别和联系

这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。Input IDs选择模型时应根据具体任务需求和数据特点权衡。

2024-12-10 14:49:53 757

原创 Transformer 模型介绍

每个输入单词（或词向量）会与其他所有单词的表示进行比较，通过计算它们的相似度来调整其在当前词表示中的权重，从而获得对该单词的上下文理解。：Transformer 适用于多种序列任务，包括文本生成、翻译、分类、问答等，且可以通过预训练（如 BERT、GPT 等）在多个任务上进行迁移学习。，该机制允许模型在处理某个词时，能够关注输入序列中其他所有词的信息，而不是仅仅依赖于固定窗口的局部信息。编码器的输出是一个上下文相关的表示，用于捕捉输入序列中每个词的语义。Transformer 模型的核心创新之一是。

2024-12-10 14:33:22 1098

panshengnan的专栏

原创 Whisper 模型对应的硬件资源

原创用于中文句子相似度判断的模型推荐

转载无监督语义相似度哪家强？我们做了个比较全面的评测

原创 Token嵌入具体实现

原创 RAG和transformers的关系

原创 KAG和transformers的关系:

原创 KAG模型

原创 RAG模型

原创 LLM模型

原创 Transformer模型举例

原创 SBERT模型的训练数据形式举例

原创 BERT 的输入处理过程（Token嵌入，句子嵌入等）

原创 Token Embeddings（词元嵌入）

原创 SBERT（Sentence-BERT）模型介绍

原创 SBERT、CoSENT和BETR以及transformers的区别和联系

原创 Transformer 模型介绍

原创 CoSENT训练和测试github代码实现

原创 SBERT和CoSENT模型的区别和联系

原创 CoSENT模型介绍和流程

原创 SBERT和BERT的区别和联系

原创训练集、测试集loss容易出现的问题总结

原创谷歌发表论文EfficientNet 重新思考CNN模型缩放

波尔兹曼机RBM

C++面试、笔试题目大全

c++面试题大全

空空如也