codebrid-优快云博客

原创 KeyError: Caught KeyError in replica 7 on device 7.

可以解决问题，但总归不是长久之计：Pytorch多GPU并行Bug收集（长期）：KeyError: Caught KeyError in replica *[device_id] on device *[device_id]._wanghan0801的博客-优快云博客在单卡训练顺利的前提下，修改为多卡训练，可谓bug多多今天用pytorch 多GPU并行训练时，在最后一个step的时候报错了，KeyError: Caught KeyError in replica 5 on device 5.如图所示

2022-05-19 15:56:53 991

原创 Pytorch GPU利用率低

GPU 利用率低常见原因分析及优化 - 知乎GPU利用率低的解决办法_Data_Designer的博客-优快云博客_gpu利用率低https://www.youkuaiyun.com/tags/NtjaIg1sNTk3NjMtYmxvZwO0O0OO0O0O.html

2022-05-19 15:52:16 1136

原创 faiss问题记录

当我执行一个脚本时，报错： import faissModuleNotFoundError: No module named 'faiss'遂：pip install faiss autofaiss -i https://pypi.tuna.tsinghua.edu.cn/simple再次执行脚本，报错： import faiss File "/Users/sunzhuo02/anaconda3/envs/torch_py37/lib/python3.7/site-pack...

2022-03-08 17:32:45 3263

转载语义角色标注

原文：https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/nlp_case/label_semantic_roles/README.cn.html背景介绍¶自然语言分析技术大致分为三个层面：词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中，谓词是对主语的陈述或说明，指出“做什么”、“是什么”或“怎么样，代表了一个事件的核心，跟谓词搭配的名词称为论元。语义角色是指论元在动词所

2020-09-13 19:32:57 5624

原创【ERROR】Floating point exception

问题出现：在使用旧版本的paddle(v2)时，使用from sklearn.metrics import f1_score计算多分类时，仅macro时出现这种报错报错原因：非法运算，如分母为0参考博客：https://blog.youkuaiyun.com/yyangzhenjie/article/details/87859506内在原因：因为 macro算法为求出每个实体的PRF再求平均，存在某个实体的PRF值计算时分母为0的情况。sklearn.metrics用法参考：h...

2020-09-10 17:34:05 5106

原创元学习

从零开始，了解元学习【机器之心】https://www.jiqizhixin.com/articles/meta-learning-intro针对实验“元学习”的方法有很多，具体可以分为以下几类：https://blog.youkuaiyun.com/qq_34886403/article/details/82664879在元学习的领域，我们不再关注获取标签。与之相反，我们尝试让机器从少量的数据中更快的学习。从大量任务训练模型，并通过少量数据在新任务中更快地学习。元学习的训练过程，最初是由 O.

2020-06-11 15:02:26 369

原创一文学会Pytorch版本BERT使用

前言：coder们最常用的Pytorch版本的BERT应该就是这一份了吧https://github.com/huggingface/pytorch-pretrained-BERT这份是刚出BERT的时候出的，暂且叫它旧版我在学习使用旧版的时候粗略的记过一些笔记：https://blog.youkuaiyun.com/ccbrid/article/details/88732857随着BER...

2020-02-24 21:31:02 15867 1

原创 open-nmt参数max_generator_batches

本文关于onmt的一个参数：【max_generator_batches】该参数被设置为默认32：（下图为在onmt开源代码的opt.py参数文件中的默认设置）help文档意为：max_generator_batches为一个序列中并行运行生成器的最大的单词数量。越高越快，但占用的内存越大。设置为0禁用。第一次看到的时候有点懵，反复确认代码后，决定将其暂时理解为模型对...

2020-02-12 17:23:50 1092 2

原创三种rouge测评方法

1. 坑爹的rouge安装2. rouge4chinese（不用安装，拿来直接用，中文）https://github.com/hpzhao/nlp-metrics/tree/master/ROUGE4Chinese3. sumeval（安装很简单，安完直接用，英文）https://github.com/chakki-works/sumeval我的使用过程：1）安装：pip ...

2020-01-30 18:20:39 3522 2

原创 torchtext.data 的 Field, RawField

今天试图更改open-nmt代码时，在preprocess阶段发现一处代码： fields = inputters.get_fields( opt.data_type, src_nfeats, tgt_nfeats, dynamic_dict=opt.dynamic_dict, src_truncate=...

2020-01-07 17:02:34 3538

原创面经 | NLP算法岗（作业帮）

这是我面的第一家公司，也是拿到的第一个offer师兄和面试官都给我留下很深刻的印象(悄悄:得知公司业务很强，利润很大面试体验a. 作业帮的提前批面试时间相对较早，今年是在7/8月份b.面试内容更侧重编程和逻辑题，项目没有问的非常深入c.面试体验很好，面试官都很nice，流程很快，衔接很好一面编程题：逆时针打印数组（剑指offer 和 ...

2020-01-06 15:43:27 1139

原创 Open-NMT 使用笔记

官网：https://opennmt.net是什么：是一个开源NMT工具OpenNMTis an open source ecosystem for neural machine translation and neural sequence learning.来源：由哈佛NLP组推出，诞生于2016年年末，主版本基于Torch, 默认语言是LuaGitHub：https://...

2019-12-23 10:27:40 7029 1

原创 `pip install -e .` vs`python setup.py install`

https://www.jb51.cc/python/241778.html

2019-12-20 17:04:42 1634

原创对话摘要 | 抽取式与生成式 | 数据集与baseline

背景：由于CVAE在summary_yxu的代码和讯飞的自己提取出来的对话数据集上，初见成效，于是这次用在一些官方的数据集上和一些对话摘要的baseline上试一下，万一效果也好呢？NOTE：再次提醒自己这次一定要用心，用心！一、文本摘要与对话摘要数据集对比文本摘要全文没有对话信息 DUC/TAC 英文|数据集较小|适用于传统摘要方法的评估 Gigaword...

2019-12-18 22:05:30 5387 7

原创 tensorflow dataset到底有哪些数据集

首先来看一下，tensorflow dataset都集成了哪些数据集>>> import tensorflow_datasets as tfds>>> print(tfds.list_builders())['bair_robot_pushing_small', 'cats_vs_dogs', 'celeb_a', 'celeb_a_hq', 'cif...

2019-12-12 18:00:55 2148

原创一次GAN项目背景下的tensorflow_datasets中mnist数据集的下载笔记

起因：帮我可爱的妹子跑一个GAN的代码（已有，github），这回是在我自己实验室的服务器上（到了展现我男友力的时候了！激动！）我的背景：第一次 | 正式使用tensorflow | 要开始排坑了 | 我爱Pytorch | 用之前碎碎念项目地址：https://github.com/google/compare_gan（很基础的一个GAN代码，谷歌大佬发布的）项目论文：https:/...

2019-12-12 17:36:52 2052 1

原创【ERROR】TypeError: expected bytes, Descriptor found

起因：帮我可爱的妹子在windows电脑上，尝试跑通一个tensorflow的GAN代码报错信息：TypeError: expected bytes, Descriptor found出错位置：Traceback (most recent call last): File "<stdin>", line 1, in <module>...

2019-12-06 16:55:49 20553 21

原创 GitHub使用笔记

Github是什么：这个星球上最流行的开源托管服务如何建立自己的GitHub仓库？1. 打开官网，并注册自己的帐号（官网：https://github.com/）2. new一个新仓库此时你的电脑已经复制了这段信息3. 在保证你的电脑已经安装了git的情况下，从git Bash(Windows)或iTerm(Mac)进入你想上传的文件夹的上一级目录里，输...

2019-12-03 09:13:34 418

原创【ERROR】AttributeError: 'BatchNorm2d' object has no attribute 'track_running_stats'

起因：一份很久之前（2018年）的项目代码image caption，今天想重新运行模型测试文件，却出现了如下错误报错信息：AttributeError: 'BatchNorm2d' object has no attribute 'track_running_stats'报错位置： File "/users4/zsun/pytorch/paper_image_...

2019-12-01 22:51:54 2428 1

原创 apex 安装/使用记录

一、apex是什么：混合精度什么用：提升GPU上的训练速度GitHub：https://github.com/NVIDIA/apexAPI文档：https://nvidia.github.io/apex使用要求：Python 3CUDA 9 or newerPyTorch 0.4 or newer. The CUDA and C++ extensions req...

2019-11-27 15:20:38 44236 9

原创【ERROR】AssertionError: The NVIDIA driver on your system is too old (found version). Please upd

错误信息：AssertionError:The NVIDIA driver on your system is too old (found version 10000).Please update your GPU driver by downloading and installing a newversion from the URL: http://www.nvidia.com...

2019-11-13 15:26:45 12113 6

原创【error】旧版本的torchtext会出现的问题

出错代码：torch.save(vocab_en, opt.vocab_path)或pickle.dump(dict(vocab_en), open(opt.vocab_path,'wb'))都会报pickle的错误其中from torchtext import dataEN = data.Field(init_token=EOS, eos_token=EOS, lo...

2019-11-10 15:28:59 2413

原创面经 | NLP算法岗(腾讯)

今年腾讯大部分hc留给提前批和实习转正，建议尽早准备。提前批投递时可以自主选择部门，有些部门的hc几乎全都留给实习生转正，建议无法实习的童鞋们，提前做好调研，避开这些部门。部门选错了就直接凉了哦（手动微笑脸）体验总结a.面试内容很全面，会涉及相关领域的前沿工作，并且会问的相当深入b.项目问的非常细节，我们的项目面试官基本都有了解，不会出现面试官不懂项目的情况c....

2019-11-06 21:36:00 2568 4

原创【error】 RuntimeError: Expected object of scalar type Byte but got scalar type Int for sequence elmen

错误：RuntimeError: Expected object of scalar type Byte but got scalar type Int for sequence elment 1 in sequence argument at position #1 'tensors'出错位置：valid = 1 - src.data.eq(padding_idx)pad =...

2019-10-24 20:45:31 1592

原创 Paper | NAACL2019 抽取式摘要之 SUMO

论文题目：Single Document Summarization as Tree Induction论文作者：Yang Liu, Ivan Titov and Mirella Lapata.下载链接：https://www.aclweb.org/anthology/N19-1173.pdf代码：https://github. com/nlpyang/SUMO.来源：NAACL ...

2019-10-20 20:28:37 1584

原创面经 | 记录秋招遇到的概率题与智力题（附答案）

概率题与智力题对于秋招选手是一种怎么样的存在？概率论是计算机科学非常重要的基础学科之一，智力题是概率题的另一种形式，概率题也是在程序员求职过程中经常遇到的问题。下面稍作整理，供大家参考。Q：49个人中至少几个人生日是同一月？A：5Q：一个聚会上，每两个人只握一次手，一共握了45次，问一共几个人A：C(n, n-1)/2 = 45 -> n = 10...

2019-10-12 19:56:47 1350

原创【论文】【ACL2018】Neural Document Summarization by Jointly Learning to Score and Select Sentences

论文题目：Neural Document Summarization by Jointly Learning to Score and Select Sentences.论文作者：Qingyu Zhou, Nan Yang, Furu Wei, Shaohan Huang, Ming Zhou, Tiejun Zhao.下载链接：https://aclweb.org/anthology/...

2019-10-07 16:19:20 1299

原创【编程题】腾讯2017秋招技术类笔试题

四道编程题，120min，python实现，第一题假定一种编码的编码范围是a ~ y的25个字母，从1位到4位的编码，如果我们把该编码按字典序排序，形成一个数组如下： a, aa, aaa, aaaa, aaab, aaac, … …, b, ba, baa, baaa, baab, baac … …, yyyw, yyyx, yyyy 其中a的Index为0，aa的Index为1，aaa...

2019-08-31 17:22:55 311

原创【编程题】【2019字节跳动技术类笔试】

一、并查集题目：豆油瓶是直系和间接朋友组成的群体，也可以自成一个豆油瓶，输入用户之间的互动次数矩阵，大于等于3即为是朋友，求豆油瓶的个数思路：初始化每个用户的父节点为自己，nn遍历每个用户对ab，如果是朋友且父节点不同，则把a的最上父节点的父节点更新为b的最上父节点，使他们拥有相同的最上父节点；构造结束后，遍历每个用户，若用户的最上父节点是自己，则朋友圈数加一；leetcode547...

2019-08-26 10:16:52 857

原创【编程题】【未知出处】01矩阵里找面积最大的全1矩阵

相似题目：01矩阵里找面积最大的全1方矩阵解法：动态规划if num[i][j] == 0: dp[i][j] = 0else: dp[i][j] = max(dp[i-1][j],dp[i-1][j-1],dp[i-1][j-1]) + 1本题：01矩阵里找面积最大的全1矩阵，不再限制于方阵解法：动态规划思路：转换成找面积最大的直方图问题，时间O...

2019-08-20 16:16:16 2951

原创【编程题】【leetcode】股票问题 - 学一套走天下

知识点：数组操作类似题目:901 股票价格跨度 3 31.4% 中等 121 买卖股票的最佳时机 46 50.4% 简单 122 买卖股票的最佳时机 II 43 55.0% 简单 123 买卖股票的最佳时机 III 17 39.0% ...

2019-08-18 17:29:39 747

原创【编程题】【2019腾讯技术类第一次笔试】

一、前缀和/快慢指针，暴力法会超时快慢指针：快指针先走k个然后走一遍 O(n) 走的时候保存最小值就是答案二、回溯/BFS解题思路：在只走‘.’的情况下把终点的冰踩碎输入n*m的矩阵，以及走的开始和终点位置在开始点，上下左右找‘.’，有就走，并把改点设置为‘X’，走到终点时候，若终点是‘X’则成功。其他情况都失败。三、最小生成树构造一个通讯网络，...

2019-08-18 11:13:03 1344

原创【编程题】杨氏矩阵

题目：给定n×n的实数矩阵，每行和每列都是递增的，求这n^2个数的中位数。方法一：与求第K小的数相同的方法，维护一个大小为K的大顶堆 O(nlogK)方法二：http://zhiqiang.org/cs/median-algorithm-of-ordered-matrix.html题目：如果给定1～n这n个数,可以构成多少个杨氏矩阵呢?https://www.cn...

2019-08-17 21:05:07 247

原创【编程题】【leetcode28】KMP

【难度：easy】【时间复杂度：O(m + n)】class Solution(object): def strStr(self, haystack, needle): """ :type haystack: str :type needle: str :rtype: int """ ...

2019-08-17 20:23:34 255

原创【编程题】【未知出处】输入两个日期计算两个日期相差的天数

【难度：easy】# 输入为# y1# y2# m1# m2# d1# d2days1 = [31,29,31,30,31,30,31,31,30,31,30,31]days2 = [31,28,31,30,31,30,31,31,30,31,30,31]def countday(year): if isday1(year): return sum(days1)...

2019-08-16 15:05:35 1689

原创【书籍记录】《编程之法》

这本书记录了一些算法岗面试常见的编程题因为博主本人记忆力较差，因此将书中比较好的部分或面试过程中真实遇到过的题目再此标记一下直接使用目录形式进行重点标记1.字符串1.3.全排列：回溯递归（时间O(n!)空间O(n!)）1.5.回文判断：双指针（时间O(n)空间O(1)）扩展：单链表（快慢指针）栈（逆置串，判断两个串完全相同）1.6.最长回文子串（遍历每个中心...

2019-08-06 10:22:34 231

原创【编程题】【leetcode】排列组合 - 学一套走天下

知识点：全排列以及各种要求的排列组合类似题目:39.组合总和40. 组合总和 II46. 全排列47. 全排列 II78. 子集90. 子集 II以leetcode90为例，python题目：给定一个可能包含重复元素的整数数组 nums，返回该数组所有可能的子集（幂集）。说明：解集不能包含重复的子集。示例:输入: [1,2,2]输出:[...

2019-08-05 13:15:38 958

原创【编程题】【未知出处】字典序

字典序一般会出两种题目：一、给一个字典序排列的数组，查找第k个元素leetocde440：https://leetcode-cn.com/problems/k-th-smallest-in-lexicographical-order/submissions/输入n: 13，k: 2；输出10；解释:字典序的排列是 [1, 10, 11, 12, 13, 2, 3, 4, 5, 6...

2019-08-04 22:57:24 200

原创【编程题】【未知出处】任务排序 / 拓扑排序

知识点：拓扑排序一、只要求满足偏序的拓扑排序输入：几个偏序n=5 # 节点个数m=4 # 偏序个数12231315输出：一种排序方式或不能排序1 4 2 5 3思路：存储输入的拓扑关系，定义数组记录每一个点状态。对状态显示还未被遍历的点进行DFS（），遍历该点以及与该点有直接拓扑关系的点。在DFS过程中将元素压入存放拓扑结果的vector结构ans。以下代...

2019-08-04 17:22:02 317

原创【编程题】【未知出处】克隆排队

题目来自于https://blog.youkuaiyun.com/song2016/article/details/81187109以下记录想法与python核心代码题目1:Alice、Bob、Cathy、Dave四个人排队喝可乐，喝完一个人变两个，接着继续到队尾排队，问第N个人喝可乐的人是谁如：N=8： ABCDAABB，第八个人是B，分析：i = 0 people =...

2019-07-28 11:52:10 204