一直小小菜鸟-优快云博客

原创 RAG中文本和图片的对齐

首先，分别从文本和图片中提取特征。文本可以通过预训练的语言模型（如 Transformer、BERT、GPT）进行编码。图片则可以通过卷积神经网络（如 ResNet、Vision Transformer）进行编码。

2024-10-22 16:13:29 1037

原创 langchain中RecursiveCharacterTextSplitter文档切割以及与其他分割方法的区别

文本分割

2024-10-22 15:59:53 1818

在网上看到的非常好的文章，怕找不到转载一下：Albert理解 - 光彩照人 - 博客园 (cnblogs.com)参考文献：1909.11942 (arxiv.org)下载相关模型：GitHub - brightmart/albert_zh: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

2024-07-04 00:20:58 230

转载 XLNet中对AE和AR方法的改进-排列语言模型（Permutation Language Modeling）

排列语言模型（Permutation Language Modeling）

2024-07-04 00:20:51 103

原创 numpy中where()

中的每个元素进行判断,如果元素值大于5,则该位置的结果为True,否则为False。注意这里返回的是坐标.也就是说，当where()只传入一个参数时，返回的是符合条件的坐标。的这种根据条件从两个数组/值中进行选择赋值的操作,在数据处理中非常常见和有用。是NumPy库中一个非常有用的函数,它根据给定条件从一个数组中筛选元素。中元素的值,用10替换了大于5的元素,其余元素保持原值。是当条件为False时,输出数组中该位置应该赋予的值。是当条件为True时,输出数组中该位置应该赋予的值。大小相同的布尔数组。

2024-06-23 21:42:40 311 1

原创 numpy中的布尔索引机制

具体来说,如果布尔数组的shape比原数组的shape小,NumPy会自动对布尔数组的shape进行扩展,使其与原数组的shape相匹配。扩展规则是:在布尔数组的shape前面补1,直到其shape与原数组的shape一致为止。也就是说，布尔索引就是当数组接收到一个布尔数组时，会将内部的布尔数组中的元素和自己的内部元素一一对应。,并从原数组中选取这些位置对应的元素。但在当数组大小不匹配时，NumPy有。布尔索引的工作原理是,的机制来处理这种情况。

2024-06-23 21:36:48 385

原创全连接层中先升维再降维其中的含义：以FeedForward为例

全连接层中先升维再降维

2024-06-03 21:42:39 928

原创关于seq2seq模型loss使用交叉熵具体是如何计算的

seq2seq模型loss使用交叉熵是如何计算的

2024-06-03 21:34:50 532

原创 nn.RNN的输入输出及其内部结构说明

原因是h_n只保留了最后一步的 hidden_state，但中间的 hidden_state 也有可能会参与计算，所以 pytorch 把中间每一步输出的 hidden_state 都放到output中（当然，只保留了 hidden_state 最后一层的输出），因此，你可以发现这个output的维度是。3.h_0(隐藏层)（h_0代表隐藏层的输入输出，在rnn网络中输入输出是格式是相同的）如果没有提供,默认为全0num_layers是RNN的层数。

2024-04-24 00:02:52 1854

原创 NLP的第一步：如何将文本变为embedding输入向量[N,T]

让我们来看一个具体的例子。

2024-04-24 00:02:32 1058 2

原创 Optimizer优化器发展从SGD到Adam(W)及其对比 (附Pytorch代码)

这里将讲解从最初的梯度下降一步一步完善直到AdamW并附有代码

2024-04-05 17:32:54 4045 1

原创 NLP基础_词嵌入word embedding模型合集(框架理解版)

在分词之后，对于文本类型的特征属性，需要进行，也就是需要。因为神经网络的本质还是数学运算。所以我们第一步是将分词转化为数字符号进行表示。基础方式如下：序号化、哑编码(One-Hot)、词袋法(BOW/TF) TF-IDF(Term frequency-inverse document frequency)主题模型LSALDA等word embedding部分：Word2VecChar2VecDoc2Vec紧接上文。

2024-03-21 16:38:32 1560 1

原创 nlp中将文本数字化的方法

分词后的下一步

2024-03-20 11:40:56 1486 1

原创 Word2vec详解（附Gensim代码）

简单讲解word2vec及其代码

2024-03-19 10:37:02 5053 2

原创文本转向量过程中的矩阵变化示例

Word2Vec中的矩阵变换示例

2024-01-10 10:29:38 603

原创 NLP基础_分词_jieba学习笔记

#自定义词典：一词占一行，每行分三个部分：词语，词频（可忽略），词性（可忽略）饿了么 2 nt美团 2 nr#加载词典word_list = jieba.cut('饿了么是你值得信赖的选择', HMM=True)print("【载入词典后】: {}".format('/'.join(word_list)))【载入词典后】: 饿了么/是/你/值得/信赖/的/选择可以在程序中动态修改词典#例如分词为徐狰狞时，可以做以下操作。

2023-12-22 18:04:58 1042

m0_62965652的博客