
文本分类
行走的五花肉
这个作者很懒,什么都没留下…
展开
-
动手学bert课程笔记
1.pytorch下面有一个pre_trained里面的东西是官方给定的,在tokenizion中可以更改各个与训练模型的下载的地址,过多的就不要改了。2.我们在使用bert的时候,写forward当我们不知道数据的形式什么样的时候,我们就点进去源码,看看对于该模型的输入输出的要求这里的x是什么?传进bert都需要什么?x就是什么上图就是模型的输入输出的要求。此处需要写bert的前向传播,直接点进去self.bert,复制前向传播的参数即可。模型初步写完我们需要调整一下维度。在这里是con原创 2020-08-18 17:18:59 · 990 阅读 · 1 评论 -
读取文件,保存文件
TXT读取分割将TXT文件按照’\n’分割成多个txt文件CSV读取按行读取CSV文件解压压缩文件zip_ref = zipfile.ZipFile(os.path.join(root_path,'mini-imagenet.zip'), 'r')zip_ref.extractall(root_path)zip_ref.close()dictLabels = {}with open(r'F:\研一\NLP\数据集\ag_news_csv\test.csv') as csvfile:原创 2020-07-23 11:03:19 · 359 阅读 · 0 评论 -
文本数据预处理(自己定义)
分词def tokenizer(text): return [tok.text for tok in spacy_en.tokenizer(text)]#顺序错了 应该先导入数据,对数据进行处理,在用loadCSVcsvdata = loadCSV(r'F:\研一\NLP\数据集\ag_news_csv\train.csv')csvdata1=tokenizer(str(csvdata))通过初步的分词,可以看到还是有许多标点符号,这些都是无用的。所以要去掉去除标点符号t原创 2020-07-26 09:00:10 · 752 阅读 · 0 评论 -
MAML-CNN代码笔记
该代码中编写了许多初始化权重的信息,其他的代码都没有加载过初始化参数的信息吗?torch.nn.Parameter()w = nn.Parameter(torch.ones(*param[:4]))在刷官方Tutorial的时候发现了一个用法self.v = torch.nn.Parameter(torch.FloatTensor(hidden_size)),看了官方教程里面的解释也是云里雾里,于是在栈溢网看到了一篇解释,并做了几个实验才算完全理解了这个函数。首先可以把这个函数理解为类型转换函数,原创 2020-07-26 09:00:41 · 1113 阅读 · 0 评论 -
文本分类---使用CrossEntropyLoss时候的一些错误
错误:multi-target not supported at C:/w/1/s/tmp_conda_3.6_045031/conda/conda-bld/pytorch_1565412750030/work/aten/src\THCUNN/generic/ClassNLLCriterion.cu:15jie**解决:**将label变为一维, 见到batch.label=batch.label.unsqueeze(1)要小心。loss函数为交叉熵的时候,此时的输入label应该就是batch_siz原创 2020-07-07 17:53:45 · 934 阅读 · 0 评论