CQU-XJTU-Mr. Wu-优快云博客

原创 RuntimeError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU

RuntimeError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU）1. 问题描述2. 解决办法1. 问题描述Pytorch，GPU显存明明够用，为什么还报错呢？发现此时减小batch_size 同样是没用的。根本原因是代码指定的GPU与实际使用的GPU不一致。你以为代码在1上跑，实际上是在已经有代码运行的其他gpu跑，因此显示显存不足。2. 解决办法让自己指定的gpu与实际使用的对应一致即可。比如，现在0，2，3号GPU已经在

2021-02-24 23:39:28 10262 1

原创 Pytorch 中文语言模型（Bert/Roberta）进一步预训练（further pretrain）

Pytorch 中文语言模型（Bert/Roberta）进一步预训练（further pretrain）1.Motivation2.相关链接3. 具体步骤3.1 依赖项3.2 数据格式3.3 代码运行4. 结果4.1 完整的目录结构4.2 训练过程4.3 训练结果5 .附录1.MotivationBert是在大规模的语料下进行MLM训练得到的结果。然而，在具体的任务下，再在自己新的数据集进行finetune的效果并不会特别好。因此，需要利用domain内的语料对Bert预训练模型进行进一步的MLM训练，

2020-12-31 19:55:46 5553 2

原创中文/英文文本相似度/文本推理/文本匹配数据集汇总（SNLI、MSRP、MultiNLI、Quora、SciTail、SICK、STS、CCKS2018、LCQMC、OCNLI、XNLI）

中文/英文文本相似度/文本推理/文本匹配数据集汇总（SNLI、MSRP、MultiNLI、Quora、SciTail、SICK、STS、CCKS2018、LCQMC、OCNLI、XNLI）1. 所有数据集合集1.1 包含的数据集1.2 合集链接2. 英文数据集2.1 MSRP2.2 MultiNLI2.3 Quora2.4 SciTail2.5 SICK2.6 SNLI2.7 STS3. 中文数据集3.1 CCKS20183.2 Chinese SNLI MultiNLI3.3 LCQMC3.4 OCN

2020-12-25 19:16:55 5256 1

原创 NLP基础：SVM手推

NLP基础：SVM手推1. SVM的目标函数2. 拉格朗日乘子法和KKT条件3. Dual对偶形式的推导3.1 线性可分支持向量机的推导3.2 (非)线性支持向量机的推导4. Kernel Trick1. SVM的目标函数目标函数是最大化 Margin根据约束条件分为Hard Constraints 和 Soft Constraints两种情况Soft Constraints情况下可以转为为 Loss 形式（Hinge loss），可利用梯度下降等方式进行优化2. 拉格朗日乘子法和KKT条件

2020-12-24 17:20:57 414 2

原创 NLP基础：利用TF-IDF完成 Emotion Detection

利用TF-IDF完成Emotion Detection1. 数据加载与划分2. 文本向量化3. 建立逻辑回归模型并训练、测试4. 利用交叉验证筛选超参数1. 数据加载与划分import pandas as pdfrom sklearn.model_selection import train_test_split, GridSearchCVfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_m

2020-12-15 11:09:29 284

原创 NLP基础：逻辑回归（LR）详解与实战

NLP基础：逻辑回归（LR）详解1. 逻辑回归（Logistic Regression）简介2. 逻辑回归优化算法推导2.1 梯度下降法（Gradient Descent）2.2 随机梯度下降法2.3 mini-batch 梯度下降3. 自适应学习率算法3.1 AdaGrad3.2 RMSProp3.3 Adam4. 迭代终止条件4.1 对数似然函数基本不再发生变化时4.2 参数基本不再发生变化时4.3 Early-stopping5. 逻辑回归实战6. 逻辑回归的缺陷7. 逻辑回归的改进7.1 L1 正则

2020-12-12 15:55:31 1490

原创 NLP基础：机器学习指标 Accuracy Precision Recall F1

NLP基础：机器学习指标 Accuracy Precision Recall F11. 混淆矩阵2. 例子3. Accuracy4. Precision5. Recall6. F1 score7. macro-8. micro-9. 利用sklearn内置函数计算macro、micro指标1. 混淆矩阵对于二分类，混淆矩阵如下：其中，T代表True，F代表False，P代表Positive， N代表Negative，TP可以形象的记忆为正确的分为了正样本，FN可以记为错误的分为了负样本，FP可以记

2020-10-27 15:24:55 1125

原创 NLP基础：词性标注实战（HMM / CRF / LSTM）

NLP基础：词性标注实战（HMM / CRF / LSTM）1. 预备知识1.1 隐马尔可夫模型1.1.1 HMM 简介1.1.2 词性标注理论推导1.2 条件随机场1.3 LSTM2. 利用 HMM 实现词性标注2.1 语料库的准备2.2 统计得到概率分布A、B、pi2.3 利用Viterbi算法实现标注2.4 运行结果1. 预备知识1.1 隐马尔可夫模型1.1.1 HMM 简介定义：指的是一个隐层的马尔可夫链（MC）随机生成不可观测的状态序列，再由状态序列生成可观测的观测序列的过程。三个概率

2020-10-20 22:59:21 1513

原创 NLP基础： Python基础编程(lambda+map+filter+decorator+numpy+pandas)

NLP基础： Python基础编程1. lambda 匿名表达式2. map函数3. filter函数4. reduce函数5. Python推导式5.1 列表推导式5.2 集合推导式5.3 字典推导式6. 装饰器6.1 简单参数装饰器6.2 通用参数装饰器6.3 对输入参数类型进行筛选7. numpy库的使用7.1 数组的创建7.2 花式索引7.3 条件逻辑转数组7.3.1 np.where()7.3.2 多维数组排序8. pandas的使用9. 总结1. lambda 匿名表达式类似于定义函数#l

2020-10-17 21:48:50 547

原创 NLP基础：检索式问答系统实战

NLP基础：检索式问答系统实战1. 目的与思路2.简单思路的实现2.1 问题-答案库的读取2.2 对数据的相关统计2.2.1 单词统计2.2.2 单词频率统计2.2.3 Top10 单词统计2.3 对qlist进行预处理2.4 文本TF-IDF表示2.5 返回最匹配的TOP5 答案3. 基于倒排表的优化3.1 建立倒排表3.2 利用倒排表进行优化4. 基于词向量的文本表示4.1 embedding 获取4.2 句子的表示4.3 基于`词向量-倒排表`的问答系统5. 总结1. 目的与思路检索式问答系

2020-10-11 15:42:51 3964 8

原创 NLP基础：动态规划练习

NLP基础：动态规划练习1. 连续子序列和的最大值2. 最长递增序列（不一定连续）3. 凑硬币问题4.总结1. 连续子序列和的最大值input = [-2, 11, -4, 13, -5, -2]def max_sum_subseq(input): """ 求解子序列的和的最大值 :param input:输入的实数组：return ：子序列和的最大值 """ length = len(input) dp = [0]*(length)#数组中的

2020-10-09 17:12:56 363 1

原创 NLP基础：编辑距离+拼写纠错实战

NLP基础：编辑距离+拼写纠错实战1. 编辑距离相关1.1 编辑距离的计算1.2 运行结果1.3 生成特定编辑距离的字符串1.3.1 生成与目标字符编辑距离为1的字符1.3.2 运行结果1.3.3 生成与目标字符编辑距离为2的字符1.3.4 运行结果2. 拼写纠错实现2.1 总体思路2.2 加载词库2.3 生成候选词集合2.4 构建Bigram模型2.4.1 语料加载debug2.4.2 相关代码2.5 根据用户日志统计打错概率2.6 利用测试数据进行纠错2.7 部分运行结果3. 总结1. 编辑距离相关

2020-10-08 22:54:05 1624

原创 NLP基础：文本的向量表示

NLP基础：文本的向量表示1. 词袋模型1.1 利用sklearn函数1.2 手动计算1.3 计算结果对比2. TF-IDF2.1 利用sklearn函数2.2 手动计算2.3 计算结果对比3. 总结1. 词袋模型1.1 利用sklearn函数import numpy as npfrom collections import Counterfrom sklearn.feature_extraction.text import CountVectorizervectorizer = CountVe

2020-10-08 18:57:34 379

原创 NLP基础：分词算法实战

NLP基础：分词算法实战1. 前向最大匹配法1.1 加载词库1.2 前向最大匹配实现1.3 前向最大匹配实现结果2. 后向最大匹配法2.1 加载词库与实现2.2 后向最大匹配实现结果3. 双向最大匹配法3.1 import 前向与后向最大匹配3.2 双向匹配实现3.3 双向匹配结果4. 利用语言模型进行分词4.1 加载词库与一部分unigram概率词典4.2 核心功能代码实现4.3 实现结果4.4 Viterbi算法优化4.4.1 图的构建4.4.2 Viterbi算法实现4.4.3 Viterbi实现结果

2020-10-07 19:59:46 979

原创递归小练习

递归小练习1. 递归思路2. 求解最大（小）值3. 列表求和4. 快速排序5. 合并排序6. 二分查找7. 有一长为1680，宽为640的土地，现要求将其分割成若干正方形，求解正方形的最大边长。算法入门，看到递归，做了几个小练习。1. 递归思路1.1 找准基线条件（停止递归）1.2 明确函数功能，知道写的函数究竟是干什么的2. 求解最大（小）值def get_max_value(lst): if len(lst) == 2: #基线条件 return lst[0] if

2020-07-24 15:33:06 272

原创算法入门+各种排序算法（Python）

算法入门+各种排序算法（Python）1. 算法的速度概念2. 常见运行时间3. 各种排序及实现（均为升序排序）3.1 选择排序3.2 快速排序3.3 合并排序3.4 冒泡排序4. 运行时间对比4.1 大体对比4.2 快速排序与合并排序1. 算法的速度概念算法的速度并非指时间，而是操作数的增速。2. 常见运行时间常见的有5种运行时间，从快到慢列举如下：2.1 O(logn) 对数时间（其中log是以2为底的对数）——二分查找2.2 O(n) 线性时间——简单查找2.3 O(n * logn)

2020-07-24 11:46:38 183

原创 Tensorflow：UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed

Tensorflow：UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed1.问题2.解决办法1.问题采用Tensorflow 1.14.0报错：2.解决办法降低Tensorflow的版本，我的代码会出现更多问题，也尝试过GPU资源分配的方法，均不行最终解决办法：将原代码：os.environ["CUDA_VISIBLE_DEVICES"] = "0"修改为：os

2020-07-08 20:52:18 256

原创粒子群算法（多维+航班着陆调度+MATLAB实现）

粒子群算法（多维+航班着陆调度+MATLAB实现）链接及源码1. 问题描述2. MATLAB代码实现链接及源码MATLAB代码＋相关文档PDF(暂未上传)1. 问题描述航班降落调度问题可以描述为：机场在某一段时间内有架需要降落航班，每个航班都有一个最早到达时间和最晚到达时间，在这个时间窗口内，航空公司需要选择一个目标时间，并将它作为航班到达时间公布出去，如果比此时间迟到或早到，会带来额外的费用支出，每个航班都定义了早到每分钟的惩罚和晚到每分钟的惩罚，同时，在两个航班降落之间需要有一段安全时间间隔。问

2020-07-01 21:58:02 3046 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_43639369的博客

原创 RuntimeError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU

原创 Pytorch 中文语言模型（Bert/Roberta）进一步预训练（further pretrain）

原创中文/英文文本相似度/文本推理/文本匹配数据集汇总（SNLI、MSRP、MultiNLI、Quora、SciTail、SICK、STS、CCKS2018、LCQMC、OCNLI、XNLI）

原创 NLP基础：SVM手推

原创 NLP基础：利用TF-IDF完成 Emotion Detection

原创 NLP基础：逻辑回归（LR）详解与实战

原创 NLP基础：机器学习指标 Accuracy Precision Recall F1

原创 NLP基础：词性标注实战（HMM / CRF / LSTM）

原创 NLP基础： Python基础编程(lambda+map+filter+decorator+numpy+pandas)

原创 NLP基础：检索式问答系统实战

原创 NLP基础：动态规划练习

原创 NLP基础：编辑距离+拼写纠错实战

原创 NLP基础：文本的向量表示

原创 NLP基础：分词算法实战

原创递归小练习

原创算法入门+各种排序算法（Python）

原创 Tensorflow：UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed

原创粒子群算法（多维+航班着陆调度+MATLAB实现）

原创 [新手小白 Transformer + BERT 最细致详解]

原创 [ N-gram 歧义句识别 ]

原创 [Paper Notes 论文笔记]：Graph Convolutional Networks for Text Classification

中文文本相似度/文本推理/文本匹配数据集-OCNLI

中文文本相似度/文本推理/文本匹配数据集-XNLI

中文文本相似度/文本推理/文本匹配数据集——Chinese SNLI MultiNli

中文文本相似度/文本推理/文本匹配数据集——LCQMC

英文文本相似度/文本推理/文本匹配数据集——MUltiNLI

英文文本相似度/文本推理/文本匹配数据集——STS

英文文本相似度/文本推理/文本匹配数据集——SNLI

英文文本相似度/文本推理/文本匹配数据集——MSRP

中文文本相似度/文本推理/文本匹配数据集——CCKS2018

英文文本相似度/文本推理/文本匹配数据集——SciTail

英文文本相似度/文本推理/文本匹配数据集——SICK

英文文本相似度/文本推理/文本匹配数据集——Quora

Transformer & Bert.zip

空空如也