自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 RAG中文本和图片的对齐

首先,分别从文本和图片中提取特征。文本可以通过预训练的语言模型(如 Transformer、BERT、GPT)进行编码。图片则可以通过卷积神经网络(如 ResNet、Vision Transformer)进行编码。

2024-10-22 16:13:29 1037

原创 langchain中RecursiveCharacterTextSplitter文档切割以及与其他分割方法的区别

文本分割

2024-10-22 15:59:53 1818

转载 Albert理解

在网上看到的非常好的文章,怕找不到转载一下:Albert理解 - 光彩照人 - 博客园 (cnblogs.com)参考文献:1909.11942 (arxiv.org)下载相关模型:GitHub - brightmart/albert_zh: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

2024-07-04 00:20:58 230

转载 XLNet中对AE和AR方法的改进-排列语言模型(Permutation Language Modeling)

排列语言模型(Permutation Language Modeling)

2024-07-04 00:20:51 103

原创 numpy中where()

中的每个元素进行判断,如果元素值大于5,则该位置的结果为True,否则为False。注意这里返回的是坐标.也就是说,当where()只传入一个参数时,返回的是符合条件的坐标。的这种根据条件从两个数组/值中进行选择赋值的操作,在数据处理中非常常见和有用。是NumPy库中一个非常有用的函数,它根据给定条件从一个数组中筛选元素。中元素的值,用10替换了大于5的元素,其余元素保持原值。是当条件为False时,输出数组中该位置应该赋予的值。是当条件为True时,输出数组中该位置应该赋予的值。大小相同的布尔数组。

2024-06-23 21:42:40 311 1

原创 numpy中的布尔索引机制

具体来说,如果布尔数组的shape比原数组的shape小,NumPy会自动对布尔数组的shape进行扩展,使其与原数组的shape相匹配。扩展规则是:在布尔数组的shape前面补1,直到其shape与原数组的shape一致为止。也就是说,布尔索引就是当数组接收到一个布尔数组时,会将内部的布尔数组中的元素和自己的内部元素一一对应。,并从原数组中选取这些位置对应的元素。但在当数组大小不匹配时,NumPy有。布尔索引的工作原理是,的机制来处理这种情况。

2024-06-23 21:36:48 385

原创 全连接层中先升维再降维其中的含义:以FeedForward为例

全连接层中先升维再降维

2024-06-03 21:42:39 928

原创 关于seq2seq模型loss使用交叉熵具体是如何计算的

seq2seq模型loss使用交叉熵是如何计算的

2024-06-03 21:34:50 532

原创 nn.RNN的输入输出及其内部结构说明

原因是h_n只保留了最后一步的 hidden_state,但中间的 hidden_state 也有可能会参与计算,所以 pytorch 把中间每一步输出的 hidden_state 都放到output中(当然,只保留了 hidden_state 最后一层的输出),因此,你可以发现这个output的维度是。3.h_0(隐藏层)(h_0代表隐藏层的输入输出,在rnn网络中输入输出是格式是相同的)如果没有提供,默认为全0num_layers是RNN的层数。

2024-04-24 00:02:52 1854

原创 NLP的第一步:如何将文本变为embedding输入向量[N,T]

让我们来看一个具体的例子。

2024-04-24 00:02:32 1058 2

原创 Optimizer优化器发展 从SGD到Adam(W)及其对比 (附Pytorch代码)

这里将讲解从最初的梯度下降一步一步完善直到AdamW并附有代码

2024-04-05 17:32:54 4045 1

原创 NLP基础_词嵌入word embedding模型合集(框架理解版)

在分词之后,对于文本类型的特征属性,需要进行,也就是需要。因为神经网络的本质还是数学运算。所以我们第一步是将分词转化为数字符号进行表示。基础方式如下:序号化、哑编码(One-Hot)、词袋法(BOW/TF) TF-IDF(Term frequency-inverse document frequency)主题模型LSALDA等word embedding部分:Word2VecChar2VecDoc2Vec紧接上文。

2024-03-21 16:38:32 1560 1

原创 nlp中将文本数字化的方法

分词后的下一步

2024-03-20 11:40:56 1486 1

原创 Word2vec详解(附Gensim代码)

简单讲解word2vec及其代码

2024-03-19 10:37:02 5053 2

原创 文本转向量过程中的矩阵变化示例

Word2Vec中的矩阵变换示例

2024-01-10 10:29:38 603

原创 NLP基础_分词_jieba学习笔记

#自定义词典:一词占一行,每行分三个部分:词语,词频(可忽略),词性(可忽略)饿了么 2 nt美团 2 nr#加载词典word_list = jieba.cut('饿了么是你值得信赖的选择', HMM=True)print("【载入词典后】: {}".format('/'.join(word_list)))【载入词典后】: 饿了么/是/你/值得/信赖/的/选择可以在程序中动态修改词典#例如分词为 徐 狰狞 时,可以做以下操作。

2023-12-22 18:04:58 1042

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除