Cosmos Tan-优快云博客

原创 Python Collections defaultdict

如果需要动态生成默认值，或者希望代码更简洁，推荐使用。如果键值对是固定的，或者需要严格控制键的存在性，使用普通dict更合适。在实际使用中，可以根据具体需求选择合适的字典类型。参考资料：https://kimi.moonshot.cn/

2025-03-10 21:23:37 841

原创 defaultdict和dict

但需要注意的是，`defaultdict` 的行为在某些情况下可能与普通 `dict` 不同，尤其是在访问不存在的键时。- 它允许在创建时指定一个默认值的工厂函数（如 `list`、`int`、`lambda: None` 等）。- `defaultdict` 是 `dict` 的子类，因此它继承了 `dict` 的所有方法和行为。- `defaultdict` 是 `collections` 模块中的一个类，继承自 `dict`。- 在访问已存在的键时，性能与 `defaultdict` 相同。

2025-03-10 21:20:49 317

原创 wsl2/ubuntu24.04中启动docker报错

这个错误提示了在 Docker 初始化网络控制器时，尝试在iptablesiptablesnftablesiptablesiptablesnftablesnftablesiptablesnftablesnftablesiptables。

2024-11-16 21:31:51 535

原创自然语言处理（NLP）-概述

什么是自然语言处理。

2023-10-14 11:35:03 588

原创循环神经网络（RNN/LSTM/GRU）-学习总结1

简单RNN受计算机的逻辑门启发，引入记忆单元（memory cell），并通过各种门来控制记忆单元。首先，通过输入XtX_tXt 和上一个隐状态Ht−1H_{t-1}Ht−1 与全连接层相乘再加上偏置，最后经过激活函数sigmoid, 得到三个门：遗忘门fff, 输入门iii, 输出门oooIt=σ(XtWxi+Ht−1Whi+bi),Ft=σ(XtWxf+Ht−1Whf+bf),Ot=σ(XtWxo+Ht−1Who+bo),\begin{split}\begin{aligned}\mathbf{

2023-10-10 00:44:00 412

原创关于rdkit 错误2w08_ligand: warning - O.co2 with non C.2 or S.o2 neighbor.

读取 PDBBindv2019的数据集，尝试把所有配体的mol2文件转换成对应smiles表达式。大约超过1千个出现问题。主要问题就是‘warning - O.co2 with non C.2 or S.o2 neighbor’。多发查看。

2023-09-17 22:57:55 263

原创更新Ubuntu18.04上的CUDA和GCC

问题：有一台服务器的GPU是1080，有八张卡，已经好久没有人用了。cuda版本是10.1,我现在拿来复现一些论文的模型，经常遇到版本依赖问题，报错Driver is too old。所以要更新一下驱动。遇到的主要问题是gcc版本也太低了，编译不了新安装的CUDA，这里简单记录一下。

2023-08-20 19:46:38 769

原创 pconsc4 安装

因为是Ubuntu 18.04 所以这里没有用yum 安装。我的系统版本： Ubuntu 18.04.4 LTS。这里的python 环境是： 3.7。

2023-08-14 11:28:39 835 2

原创线性回归学习总结

线性此外在回归分析中，会有残差和均方误差两个词。其中残差是预测值和观测值（真实标签）之差。SSE 表示的是残差平方和（Sum of Squares for Error），也称为误差平方和。MSE 表示均方误差（Mean Squared Error）均方误差是残差平方和除以样本数量的结果，表示了每个样本的预测误差的平方的平均值数学上的误差（相对误差和绝对误差）是实际测量值和真实值（理论值）之前的差别。统计学上，方差是衡量数据的离散程度的，而偏差描述的是预测值（估计值）的期望与真实值之间的差距。

2023-08-12 00:08:47 876

原创一语道破 python 迭代器和生成器

迭代器通常用于对列表、元组、字典等数据结构进行遍历。它们适用于已知数据集合且数据量不太大的情况。生成器适用于需要动态生成数据的情况，尤其是当数据集合非常大或是无限的时候。生成器按需生成数据，可以节省内存和提高性能总结起来，迭代器是一种数据访问模式的抽象概念，用于按序访问集合中的元素，它可以由自定义的迭代器对象或 Python 内置的可迭代对象生成。而生成器是一种特殊的函数或表达式，用于按需生成数据，并保存状态以支持断续生成。

2023-08-04 23:01:49 183

原创浅谈keras.preprocessing.text

是一个用python编写的开源神经网络库，从2021年8月的版本2.6开始，成为Tensorflow2的高层API。它拥有着丰富的数据封装和一些先进的模型实现，避免了“重复造轮子”。最近接触到Keras的embedding层，进而学习了一下Keras.preprocessing.text的相关知识。虽然Keras.preprocessing.text已经。取而代之的是但是，之前不少的代码用的还是Keras.preprocessing.text，因此还是有总结一下的必要。

2022-11-27 22:51:40 1722

原创 Python基本模块（一）之OS模块

1、斜杠：/2、双反斜杠：\\3、原始字符串r+单反斜杠\注：windows使用单反斜杠。

2022-10-07 17:47:12 258

原创 python常见包（一）之Numpy学习记录

一、基本概念和Narray对象1、array创建narray对象(2)numpy.empty、numpy.zeros、numpy.ones。2、数据类型对象dtype3、数组属性二、常见对数组的操作三、常见函数四、numpy存储相关五、numpy矩阵运算1、矩阵运算函数2、线性代数运算......

2022-10-07 16:09:49 162

原创 Sklearn学习记录之CountVectorizer

在sklearn.feature_extraction.text中有四个用来从文本中提出特征向量的子模块，其中以CountVectorizer为基础模块。其模块的主要函数是fit 和transformer。以下截图是具体的源码。在文本处理过程中，先挖坑，有时间再填。

2022-10-07 16:07:11 573

原创 C++编程常用知识点

在c++中除了一些顺序容器外，标准库中还定义了三个容器适配器：stack、queue和priority_queue。适配器是标准库中的一个通用概念。容器、迭代器和函数本质上都是适配器。本质上，一个适配器是一种机制，能使某种事物的行为看起来像另外一种事物一样。一个容器适配器接受一种已有的容器类型，使其行为看起来像一种不同的类型。例如，stack适配器接受一个顺序容器（除array和rorward_list外），并使其操作起来像一个stack一样1、运算符函数定义格式2、map,unorder_m.

2022-10-07 16:00:05 580

原创 Linux命令（三）之文件查看、移动、压缩、权限设置

1、$ tar xvf Python-3.6.6.tar.xzx:解压 v:显示所有过程 f:使用档案名字，切记，这个参数是最后一个参数，后面只能接档案名

2022-10-07 15:24:04 244 1

原创 pytorch的tensor创建和操作记录

2）指数、对数、幂运算、开方运算。（3）三角&反三角函数运算函数运算。（4）双曲线反双曲线运算。（1）加减乘除、绝对值。

2022-07-31 12:17:27 701

原创 python 给PDF添加目录

pdfminer是python2库，pdfminer3k是python3库。相较于pdfplumber，操作繁琐。PyPDF2，PyPDF3,PyPDF4,主要对PDF进行操作合并，拆分，旋转。获取PDF每页的每个文本字符、矩形和线条的详细信息。另外表格提取和可视化调试。根据不同PDF，编写目录信息、页码信息的代码。......

2022-07-19 19:55:07 2120 3

原创 Singularity实践教程 + Docker 转 Singularity 的避坑指南

因研究需要，复现某论文，使用的是某校的服务器集群。他们服务器使用的容器是Singularity，而之前自己在院里用的时docker。docker学了没多久，就开始Singularity。恰恰是会一点docker，所以在转用singularity的过程中，踩的坑比较多（造孽啊）。记录一下，前事不忘，后世之师.........

2022-07-08 19:32:01 13112 2

原创 Linux Shell 中常见的特殊符号汇总

shell脚本的各种符号比较繁杂，尤其是通配符，和$符号。还有各种括号，运算符的应用，混在一起难以记忆。通过学习shell脚本语言，以及查找资料，总结shell脚本中的常见特殊符号，并分门别类，有助于理解和记忆。目录一、shell变量类1、$ 和 {}2、$() 和单引号二、shell字符串变量相关1、单引号' '2、双引号" "3、获取字符串长度 4、变量扩展三、shell运算符和表达式类1、算术运算符2、关系运算符3、布尔运算符4、逻辑运算符5、字符串运算符四、shell运行中传递参数相关五、输入输出重

2022-07-07 17:23:53 3309

原创 CIFAR10数据集

CIFAR10数据集简介

2022-06-12 20:20:53 3919

原创 GAP（全局平均池化层）生成CAM（Class Activation Map）

一、GAP的提出1、来源：Network in Network 论文作者提出GAP：用于正则化、减少参数量，替代网络中最后一层全连接网络2、原理具体可以参考链接2二、GAP在图像中物体定位上的应用在论文Learning Deep Features for Discriminative Localization首次提出用GAP定位图像中的物体。三、GAP与GMP（全局最大池化层）比较在生成CAM图时，即物体定位方面，GAP...

2022-05-12 17:57:36 1735

原创 Pytorch 实现 DistributedDataParallel 操作

一、DataParalle缺点Pytorch单机多卡（GPU）运行的基本方法是使用torch.DataParlle（）函数，具体操作参考：其主要原理：假设有四个GPU，batch_size=64，input_dim为输入数据特征维度。nn.DataParallel() 将随机样本集（64， input_dim）分成四份输入到每个GPU。每个GPU处理（16， input_dim）的数据集（前向传播计算）。然后第一个GPU合并四份输出数据，并计算Loss（反向传播计算）。因此第一个GPU计算量大，负载

2022-05-10 11:24:02 596

原创理解torch.distributed.barrier()

if args.local_rank not in [-1, 0]: torch.distributed.barrier() # Make sure only the first process in distributed training will download model & vocab ... (loads the model and the vocabulary) if args.local_rank == 0: torc.

2022-05-09 22:55:27 3247 2

原创 Python 全局解释器锁GIL

参考：Python进阶——为什么GIL让多线程变得如此鸡肋？ - 云+社区 - 腾讯云https://cloud.tencent.com/developer/news/743497一、什么是GIL二、GIL的历史三、GIL的优势与弊端

2022-04-10 11:34:07 590

原创 python 文件操作（二）之读写.npy；txt,tsv,csv,excel；json文件等

一、读写.npy文件import csvimport pandas as pdimport numpy as npimport sys# 读取文件entity_emb = np.load('../data/DRKG_TransE_l2_entity.npy')rel_emb = np.load('../data/DRKG_TransE_l2_relation.npy')# 将数组中数据写入到.txt文件np.savetxt("./entity2vec.txt",entity_em

2022-04-09 11:20:15 2635

原创 python常见包（二）之Pandas 常用操作汇总

一、读取文件：1、from databaseimport pymysqlfrom sqlalchemy import create_engineconn = create_engine('mysql+pymysql://root:123456@localhost:3306/databasename?charset=utf8') sql = 'select * from tb_name'df = pd.read_sql(sql=sql,con=con,index_col=True,coer

2022-04-09 10:52:16 1700

原创 Anaconda + Julia + Jupyter

# Linux Anaconda环境下（我用的是默认base）直接：apt install julia# 如果使用：conda create -n julia-test julia# 能够成功安装，但是jupyter notebook 连接kernel会一直连接不上。目前没有发现问题所在。记录一下参考链接：1、1、参考：Mac 配置 Anaconda + Jupyter + Julia 环境_Y1575071736的博客-优快云博客Mac 配置 Anaconda ..

2022-03-10 21:35:18 2347

原创 Linux命令（一）——查看Linux的版本、CPU等系统信息

dudf(待续ing)

2021-12-07 16:55:00 5127

原创 Docker实践指南（二）之配置anaconda+远程jupyter notebook容器

一、下载镜像docker pull continuumio/anaconda3二、Docker 创建容器docker run -it \-p 12345:8888 \--mount type=bind,source=/data/zzu_student/filename,target=/usr/local/filename \--gpus all continuumio/anaconda3 /bin/bashdocker run 具体命令含义：参考： Docker 实践指南——下载

2021-12-07 15:59:29 1204

原创 Linux命令（二）—— 进程相关

是 Linux 下最常用的进程查看命令二、top命令:动态地监视进程活动及系统负载等信息。类似于windows的任务管理器前五行是系统的整体信息，分别是：系统时间信息，进程信息，cpu运行信息，内存信息，虚拟内存。三、pstree 命令: 查看进程树四、pgrep 命令: 查询进程信息如：五、kill 和 killall六、pidof七、nice Linux 常用快捷键：...

2021-12-07 15:57:44 987

原创 Linux Shell 中常用符号的含义

# 注释符;一、重定向：I/O。Linux Shell 环境中支持输入输出重定向，用符号<和>来表示。0、1和2分别表示标准输入、标准输出和标准错误信息输出，可以用来指定需要重定向的标准输入或输出，比如> # 重定向输出符号。>> # 重定向输出符号，但有追加的功能。2> # 错误重定向输出符号，覆盖原文件内容。2>> # 错误重定向输出符号，有文件内容追加的功能。# 示例2>a.txt .

2021-12-05 16:18:23 1125

原创 Docker 实践指南（一）下载、配置及应用等常见命令

一、下载及启动：二、常见操作：１image2 container(base) user@ubuntu:~$ docker container --helpUsage: docker container COMMANDManage containersCommands: attach Attach local standard input, output, and error streams to a running container commit .

2021-12-05 09:22:57 767

原创 60分钟闪学pytorch深度学习记录3

三、神经网络1、定义神经网络（2）使用torch.nn定义网络各层### 三、Define the network## 1、import torchimport torch.nn as nnimport torch.nn.functional as Fclass Net(nn.Module): def __init__(self): super(Net, self).__init__() # 1 input image ...

2021-05-23 23:59:14 260

原创 60分钟闪学pytorch深度学习记录2

二、自动求导 Torch.autograd()概念：autograd() 是torch的自动求导机制，用于神经网络的训练。神经网络的训练主要有两个大步骤：1、前向传播：构建合理的模型，训练网络参数，使其在训练数据集上能够拟合结果。2、反向传播：根据预测结果与正确结果之间的差距（用损失函数来衡量），来调节模型的参数。通常有梯度下降方法。这是就需要自动求导autograd()。1、举例# Usage in PyTorch# create a random data.

2021-05-18 14:56:10 195

原创 60分钟闪学pytorch深度学习记录1

目录：一、认识张量 Torch.tensor()二、自动求导 Torch.autograd()三、神经网络 Neural Networks四、训练分类器 Training a Classifer正文：一、认识张量 Torch.tensor()1、张量的创建方法：共有以下四种import torchimport numpy as np## 1、Tensor Initialization"""can be initialized in...

2021-05-18 14:34:01 158

原创 torch.autograd理解

1、参考：https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py

2021-05-17 14:20:58 183

原创 Python常见包（三）之matplotlib记录

参考：https://matplotlib.org/stable/tutorials/index.html一、matplotlib1、概念：Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python.2、使用模式：（1）pyplot API (Application Programming Interface) (2)...

2021-05-15 11:18:15 183

原创 Python基础知识（二）之序列结构(元组、列表、字典、集合)

python的对象模型，也是其基本的数据结构一、Python最基础的数据结构开始：元组、列表、字典和集合1、元组（tuple）对象(1)创建元组：1)>>> tup = 4, 5, 6>>> tup(4, 5, 6)>>> nexted_tup = (4, 5, 6), (1, 2)>>> nexted_tup((4, 5, 6), (1, 2))2)用tuple可以将任意序列或迭代器转换成元组.

2020-06-06 12:04:08 1131 1

原创 Numpy函数cumsum之分分钟理解

一、问题来源：import matplotlib.pyplot as pltimport numpy as npplt.plot(np.random.randn(15).cumsum())[<matplotlib.lines.Line2D at 0x1cdd9d591d0>]二、cumsum函数理解别废话，观察+思考1、案例：import numpy as np arr=np.arange(1,48,2).reshape(2,3,4)..

2020-06-06 10:14:59 2969 4

空空如也

空空如也