SUFEHeisenberg-优快云博客

原创【Useful Tools】SUFE Computer Science Conference Deadline Webtools

SUFE CS CONF DDL

2022-07-10 00:16:00 357

原创【Paper Reading】Text Classification Using Label Names Only A Language Model Self-Training Approach

【Paper Reading】Text Classification Using Label Names Only: A Language Model Self-Training Approach@author: Heisenberg1.Intuition针对无标签的场景下，无监督训练。只利用标签名字进行分类。paper的出发点也即在人工打标时，也是参考使用了已有的先验知识。比如在新闻类比的分类中，我们提到“运动类”，可能会想到“篮球”，“足球”，“体育场”等相关词。如何只利用label-nam

2021-01-13 23:27:25 1418 2

原创【Bugs】openai.error.ServiceUnavailableError The server is overloaded or not ready yet

【代码】【Bugs】openai.error.ServiceUnavailableError The server is overloaded or not ready yet。

2023-07-21 15:57:40 2131

原创 Linux Screen保持后台交互

这个时候，关闭终端，xxx虚拟终端也不会停止运行。刚刚我们介绍了创建虚拟终端，并回到主终端的方法。pid/name：为虚拟终端PID或Name。进入screen的指令接受，再按。，xxx为虚拟终端名字。

2023-07-18 13:32:19 460

原创【Bugs】latex伪算法行数全部为0

原来是在文档前面偷偷load了一个。两个package冲突了，将前者注释掉即可，

2023-07-08 01:48:02 3174 5

原创 Linux 系统常用命令

rm -rf test：删除test目录，-r递归删除，-f强制删除。危险操作，务必小心，切记！mv desc.txt /mnt/：剪切文件desc.txt到目录/mnt下。

2023-06-24 15:03:02 455

原创 InstanceNorm && LayerNorm

IN&&LN

2023-01-26 15:59:52 1881

原创 Pandas如何删除重复的数据但保留最大值的行

Pandas处理

2022-12-15 17:10:30 962

原创【Bugs】JSONDecodeError Extra data line 2 column 1

Json Debugs

2022-12-15 17:09:58 1770

原创 Python实现Welch‘s T-test

Welch’s T-test

2022-11-15 18:18:22 3644

原创【2022版】基于矩阵分解的PCA 白化&ZCA白化

【2022版】基于矩阵分解的PCA 白化&ZCA白化

2022-11-14 07:22:23 732

原创 CUR矩阵分解

CUR矩阵分解

2022-11-12 18:59:36 2109

原创 pandas筛选出含有特定字符串的列

【代码】pandas筛选出含有特定字符串的列。

2022-11-10 01:16:27 981

原创 Pandas求列的指数和

Pandas求列的指数和。

2022-11-10 01:15:35 383

原创 Paper Reading《Torch.manual_seed(3407) is all you need》

使用PTM在CIFAR10数据集上试验了10^4个种子，探究不用random seed的区别

2022-10-18 06:25:15 1234

原创 Pandas 按照一列中所有值进行筛选并导出至单独文件

Pandas 按照一列中所有值进行筛选并导出至单独文件

2022-10-04 06:51:58 819

原创 M1 pro 芯片Macbook Pro配置anaconda&& GPU版Pytorch

M1 Mac配置anaconda+PyTorch

2022-09-30 07:50:01 2333

原创 M1 pro 芯片Macbook Pro配置Apple Silicon版Pycharm安装报错 “Pycharm.app意外退出”

pycharm安装报错

2022-09-30 06:14:32 2651 1

原创 Macbook Typora+Picgo命令行+github 图床配置

Picgo+Typora+Githun

2022-09-30 06:11:35 1599

原创 IEEE pdf eXpress 报错Font TimesNewRomanPSMT is not embedded

解决IEEE pdf eXpress报错

2022-09-29 12:43:45 1658 2

原创【Coding】Latex添加表格注释footnote

latex footnote

2022-08-14 07:04:29 3642

原创 AGNews Dataset的LDA2vec探索Exp

lda2vec方法的应用

2022-07-09 23:44:43 1120

原创【Trick】Finalshell忘记密码找回(傻瓜点击版)

【Trick】Finalshell忘记密码找回(傻瓜点击版)@author: SUFEHeisenberg@date: 2022/04/18有鼠标就行的傻瓜点🐔版：教程一找到finalshell/conn存储dir找到你得密码编码FinalShell密码找回/FinalShell密码破解复制上述链接的Java代码到这里Done!...

2022-04-18 23:45:43 6341 1

原创如何禁止Mac OSX 自动下载系统更新安装包

一行命令解决Mac OSX 系统更新安装包自动下载问题打开terminal/iTerm2输入如下代码：sudo defaults write /Library/Preferences/com.apple.SoftwareUpdate AutomaticDownload -boolean FALSE出现小钥匙形状后再输入user password。Done....

2022-03-13 10:30:45 2487

原创【Coding】BERT finetune用任意几个Layer的output feature作为final logits

【Coding】BERT finetune用任意几个Layer的output feature作为final logits某些paper中表示用最后四个layer的output feature结果要好一些。根据huggingface model output输出outputs = self.bert(input_ids, attention_mask=attention_mask, token_type_ids=token_t

2022-03-01 16:52:09 334

原创【Coding】从BertForSequenceClassification分类出pooled_output作为final feature

从BertForSequenceClassification分类出pooled_output作为final featureBertForSequenceClassification函数在设计时并未返回pooled_output参数：class BertForSequenceClassification(BertPreTrainedModel): #.... #.... outputs = self.bert( input

2022-03-01 16:36:34 2226 1

原创【Coding】Pandas实现VLOOKUP模糊搜索匹配

【Coding】Pandas实现VLOOKUP模糊搜索匹配1. 问题描述如果想利用pandas在python中实现Series文本中的模糊匹配而非精准匹配，可以利用fuzzy实现。2. 数据样例df1 = pd.DataFrame([['Apple','A'],['Banana','B'],['Orange','C'],['Strawberry','D'],['Mango','G']], columns=['Fruits','AA'])df2 = pd.DataFrame([['Aple','a'

2022-02-27 23:45:30 3734

原创【Coding】LSF作业系统查看bsub提交历史

LSF作业系统查看bsub提交历史查看job history都是通过bhist命令实现。1. 查看某个具体的作业历史记录bhist -l job-ID(base) usr@gpu1:~$ bhist 655xxSummary of time in seconds spent in various states:JOBID USER JOB_NAME PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL655xx usr xy

2022-02-13 10:02:55 5389 1

原创【Bugs】RuntimeError CUDA out of memory

【Bugs】RuntimeError: CUDA out of memory.报错如下：Traceback (most recent call last): File "xxx.py", line 110, in <module> loss.backward() File "/nfsshare/apps/anaconda3/lib/python3.7/site-packages/torch/tensor.py", line 185, in backward torch

2021-12-26 20:19:42 1213 1

原创【Coding】argparse 传递boolean布林值

【Coding】argparse 传递boolean布林值实验中发现argparse在传递参数时无论选择是TrueorFalse，参数都会默认是True。所以想传递boolean可以用一下方法试验：import argparseparser = argparse.ArgumentParser(description='Choose Model mode')parser.add_argument('--flag','-f', action="store_true",

2021-12-24 11:02:16 725

原创 Pytorch Load Dataset 多线程加载读取数据

Pytorch Load Dataset 多线程加载读取数据单线程读取数据时以agnews dataset为例，num_worker=1时读取时间如下：Load Test Data Spends 12.183895587921143 secondsLoad Test Data Spends 200.42685055732727 secondsDataLoader(dataset, num_workers=2,collate_fn=collate_fn)时Load Test Data Spe

2021-11-29 21:29:22 2274

原创 Pandas 返回Nan值的行索

Pandas 返回Nan值的行索通过np.where函数查找。>>> dfOut[1]: 0 10 0.450319 0.0625951 -0.673058 0.1560732 -0.871179 -0.1185753 0.594188 NaN4 -1.017903 -0.4847445 0.860375 0.2392656 -0.640070 NaN7 -0.535802 1.632932

2021-11-15 15:05:29 2112 1

原创 Bert model output不会随意改变

Bert model output不会随意改变随便load两个bert model进行验证。>>>model1 = BertModel.from_pretrained(checkpoint)>>>model2 = BertModel.from_pretrained(checkpoint)>>>a = tokenizer("Hello, my dog is cute", return_tensors="pt")>>>b = t

2021-11-13 23:05:27 1193

原创【Bugs】ValueError not enough values to unpack (expected 2, got 1)

【Bugs】ValueError: not enough values to unpack (expected 2, got 1)1. Bug 场景Pytorch环境下用Huggingface获取bert.outputs代码output = model(**input)[0]的时候出现bug>>>model(**input)Traceback (most recent call last): File "<input>", line 1, in <module

2021-11-13 16:29:04 2491

原创【Bugs】pyarrow.lib.ArrowInvalid Column 2 named label expected length 1004 but got length 1000

【Bugs】pyarrow.lib.ArrowInvalid: Column 2 named label expected length 1004 but got length 1000又是一年双十一，又累又困惨戚戚。——2021.11.11bugs描述在pytorch huggingface环境中想更改tokenizer编码的input_ids的index，本想通过赋值的方式发现报错：tokenized_datasets_test = agnews_dataset['test'].map(tok

2021-11-11 20:49:37 3928 1

原创【Papers quickthrough】Out-of-manifold, Putting Words in BERT’s Mouth, MTLE.

【Papers quickthrough】Out-of-manifold, Putting Words in BERT’s Mouth, MTLE.Out-of-manifold Regularization in Contextual Embedding Space for Text ClassificationPaper Url. Accepted by ACL 2021 Long Paper.1. Abstract最近对BERT的研究主要集中在低维子空间，其中向量向量由输入词(或其上下文)

2021-10-28 17:27:18 390

原创【Paper Reading】All-but-the-Top Simple

【Paper Reading】All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsPaper Url. Accepted by ICLR 2018.搞清楚如何减的D维的PCA，figure out why do this?Abstract实值词表示已经转化为NLP应用;最常见的例子是word2vec和GloVe，这两种语言因其捕捉语言规律的能力而得到认可。在本文中，我们演示了一种非常简单，但反直觉

2021-10-28 03:53:31 288

原创【Paper Quickthrough】October Papers

Paper to quickthroughAll-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsPaper Url. Accepted by ICLR 2018.搞清楚如何减的D维的PCA，figure out why do this?Abstract实值词表示已经转化为NLP应用;最常见的例子是word2vec和GloVe，这两种语言因其捕捉语言规律的能力而得到认可。在本文中，我们演示了一种非常

2021-10-24 23:08:44 1286

原创【Paper Quickthrough】2021 Bert 各向异性

Bert各向异性2021 Paper QuickthroughISOTROPY IN THE CONTEXTUAL EMBEDDING SPACE: CLUSTERS AND MANIFOLDSPaper Url. Github Url. Accepted by ICLR 2021.Abstract近年来，深度语言模型(如BERT和ERNIE)的上下文嵌入空间的几何特性受到了广泛关注。对上下文嵌入的研究表明，空间具有很强的各向异性，大多数向量落在一个狭窄的锥内，导致高余弦相似性。令人惊讶的是，

2021-10-21 23:09:28 1561

原创【Paper reading】Fusing label Embedding into BERT An Efficient Improvement for Text Classification

Paper reading: Fusing label Embedding into BERT: An Efficient Improvement for Text ClassificationPaper Url，东京工业大学，Findings of ACL-IJCNLP 2021.2.1 摘要随着BERT等PTM越来越受到关注，人们做了大量的研究来进一步提升它们的能力，从增强实验程序到改进数学原理。在本文中，我们提出了一种简洁的利用标签嵌入技术方法来提高BERT在文本分类中的性能，同时保持几乎相同

2021-10-16 13:58:46 702

空空如也

空空如也