- 博客(21)
- 收藏
- 关注
原创 TypeError: not a string
self.tokenizer = AutoTokenizer.from_pretrained(args.bert.location, use_fast=False),把use_fast=False删掉,改为self.tokenizer = AutoTokenizer.from_pretrained(args.bert.location)
2023-09-14 22:31:02
945
原创 ERROR: Failed building wheel for tokenizers
一直报错: ERROR: Failed building wheel for tokenizers。检查了一下python版本3.9,改为3.6版本后成功下载。想下载tokenizers==0.8.1.rc2。
2023-09-02 17:10:45
1760
原创 第19次周报
本周我读了两篇关于自然语言处理的综述,在第一篇文章中,作者提出了adapter modules,一种高效的参数更新方式,只训练少量参数的情况下达到与微调全部参数的效果相似。在另一篇文章中,作者设计了一个超大预训练模型T5,然后主要工作是把NLP任务转换成文本到文本格式的统一框架,该框架在统一大多数现有NLP任务方面表现出了巨大的潜力。对大型预训练模型进行微调是自然语言处理中一种有效的传递机制。然而,在存在许多下游任务的情况下,微调是参数效率较低的:每个任务都需要一个全新的模型。
2023-04-02 22:24:40
473
原创 18次周报
This week I read two review about the natural language processing .In the first article,the authors token a look into the history of pre-training to indicated the core issue of PTMs, and meanwhile revealed the crucial position of PTMs in the AI development
2023-03-26 22:23:20
1007
原创 第17次周报
这周我读了一篇关于提示学习的综述,在这篇文章中,作者总结并分析了提示学习的几种工程和相关技术,并认为基于提示的学习是一种有前途的新范式,根据这篇文章,我对提示学习这个领域有了基础的了解。
2023-03-19 21:26:52
201
原创 第16次周报
这周我读了一篇关于bert模型的文章,bert是一个预训练的语言模型,由多个双向的transformer编码器组成,bert在概念上更简单,而且在实验上表现更好,它可以被用于处理多个NLP的下游任务上。实验证明,bert比以前的模型效果更好。此外,我还对transformer模型的细节进行了学习。
2023-03-12 22:14:27
478
原创 第15次周报
本周我学习了一篇关于Transformer模型的文章,因为ChatGPT 使用的预训练模型 GPT,是在 Transformer 中的 decoder 基础上进行改造的。该文章的创新点在于Transformer模型基于注意机制并完全摒弃了RNN和CNN。实验证明,Transformer比以前的模型效果更好。此外,我还计算了该模型的结构。主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。
2023-02-26 19:33:13
115
原创 第14次周报
本周学习了一篇文章,该文章提出了一种有效的数据增强方法–text smoothing,它主要是把句子从独热编码的表示转换为可控的平滑表示。在缺乏数据的情况下表明,text smoothing的性能大大优于各种主流数据增强方法。此外,text smoothing可以进一步与各种数据增强方法相结合,以获得更好的性能。本周因为考试耽误了不少时间,下周会继续深入研究时序模型和阅读NLP相关论文。
2023-02-19 21:01:07
256
原创 第13次周报
一篇关于引入注意力机制处理长句子的文章被我学习了。在文章中,作者引入了注意力机制拓展了encoder-decoder模型,它不试图将整个输入序列编码成一个定长的向量,相反,它将输入序列编码成向量,在大程度上提高了模型处理长句子的能力。神经机器翻译是最近提出的一种新的机器翻译方法,神经机器翻译的目标是建立一个单个的神经网络,可以共同调整,以最大限度地提高翻译性能。
2023-02-05 21:27:15
114
原创 第12次周报
本周学习了一篇使用LSTM结构解决自然语言推理问题的文章。在这篇文章中,作者使用BiLSTM和tree-LSTM来搭建网络解决自然语言推理问题:即能否从一个前提p中推导出假设h?
2022-12-11 22:40:48
148
原创 第11次周报
This week, a classic article about the seq2seq structure was read,This network structure better solves the problem of sequence mapping,The authors improved the performance of LSTM by inputting word inversion of input sentences。Moreover, the propagation for
2022-12-04 22:21:38
120
原创 第十次周报
本周我阅读了一篇关于文本识别和检测的综述型论文,并且我分析了循环神经网络的数学公式,这篇综述论文最大的亮点是总结了该领域存在的问题,我对作者提出的问题进行了思考。
2022-11-27 22:51:19
313
原创 第九次周报
本周我阅读了一篇关于文本识别和检测的综述型论文,并且我学习了循环神经网络。这篇综述论文总结了许多其他文本识别和检测的论文的数据和结论,但文章太长了导致我没看完,在下周我将详细汇报从中学到的内容。
2022-11-20 22:46:20
174
原创 第八次周报
本周阅读了下述三篇经典卷积神经网络论文,并复现了代码。实验出现了过拟合的现象,通过研究发现不仅与batch_size有关,还跟数据的数量有关,我调整了batch_size以及采用迁移学习解决了问题。
2022-11-13 22:16:00
791
原创 第七次周报
在这周的工作中,我阅读了一篇使用卷积神经网络进行文本分类的文章,该文章提出的框架使用小数据集对社交媒体帖子进行分类,并适用于多语言分类。
2022-11-06 22:47:45
257
原创 第六次周报
本周对cnn的经典模型LeNet5进行了解,主要工作放在对tensoflow的学习,还阅读了《Drug-Drug Interaction Extraction via Convolutional Neural Networks》,这篇文献设计的系统是基于cnn的作者提出了一种基于cnn的DDI(药物相互作用)提取方法。使用Word嵌入和位置嵌入来分别捕获单词的语义信息和单词与两种药物之间的关系,用来表示DDI(药物相互作用)实例。
2022-10-30 22:51:52
329
原创 第五次周报10.23
本周继续研究卷积神经网络,主要解决清楚了卷积的数学性质和物理意义以及相关问题,以及阅读了《Striving for Simplicity: The All Convolutional Net》,这篇文献围绕着“池化层可否被替代”进行讨论。通过这些学习,对卷积神经网络的了解更深刻了。
2022-10-23 22:00:25
805
原创 第四次周报
本周用三种方法手写数字识别,并对比了三者之间的优缺点,明白了为什么使用softmax作为激活函数,为什么用交叉熵作为损失函数,以及推导了交叉熵的公式
2022-10-16 23:24:52
350
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人