- 博客(4)
- 收藏
- 关注
原创 LSTM的输入参数和输出参数
4.batch_first:默认为False,在制作数据集和数据集载入的时候,有个参数叫batch_size,也就是一次输入几个数据,lstm的输入默认将batch_size放在第二维,当为True的时候,则将batch_size放在第一维。1.input_size:输入的特征维度,一般来说就是字向量的维度,比如如果用bert(base)的话,那么输入的维度input_size=768。3.num_layers:很好理解,就是LSTM 堆叠的层数,默认值为1,设置为2的时候,第一层的输出是第二层的输入。
2023-05-25 14:56:30
4574
1
原创 NLP-自己的文本数据过度到代码文本格式(代码格式需要)
{"id":159,"text":"1.隔离区域部分常开防火门电磁执行器和双扇防火门闭门器损坏无法进入维修。","label":[[2,6,"区域"],[6,8,"量化性能"],[10,18,"消防设施主体"],[19,27,"消防设施主体"],[27,29,"设施状态"],[29,35,"执业活动流程"]],"Comments":[]} 这是我的数据格式。这里上传一下我写的脚本,可能不是很规范。当我们找到一个代码,想换自己的数据,结果发现代码数据格式和自己的数据格式不是互通,需要脚本转变。
2023-05-19 10:10:34
265
1
原创 在bert-bilstm-softmax中加入MultiheadAttention
先加载了一个预训练模型,这里的预训练模型输出的肯定是个tuple(之前犯了错,想看看究竟是什么东西,于是就size了一下发现出错,原来是tuple的原因),这里只需要知道预训练bert模型的输出的第一个列表也就是embed_x = self.bert(x)[0]是词向量,这里的词向量的维度是不能超过768的,因为这个模型最大就是768维的词向量,如果用更好的预训练模型比如roberta之类的会到1024对应模型的参数就会越多,计算时间也就越长。这里的代码中,_的意思是(c_n,h_n)我都不要了,
2023-04-14 18:39:44
1269
3
原创 rnn参数 input_size,hidden_size,output_size,time_step,num_layers
从网上看到了这个图,就清晰多了, 绿色的圈圈就是input_size,也就是词向量的维度。(这里其实不太对 ,因为要分词,显然湖人是个名字,所以湖人应该是连在一起的)。output_size和hidden_size是没有关系的,但是和hidden有关系,在hidden里做了降维提取特征这个手段。图中有4个小图片,就是4个time_step, (!很多人会把time_step和hidden_size混淆 其实不对)。这个图其实对于初学者挺好理解的,但是一但较真了,发现有很多说不通的地方。
2023-02-22 15:32:58
1414
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅