自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(260)
  • 收藏
  • 关注

原创 蛋白质功能预测论文阅读记录2025(DPFunc、ProtCLIP)

目前更新了蛋白质功能预测论文DPFunc、ProtCLIP,后续会继续更新相关论文

2025-03-12 19:21:50 1069 1

原创 利用多线程加速ESMC-6B模型API调用以及403Forbidden问题的解决

利用python线程池对ESMC-6B模型的API调用进行了多线程加速,利用VPN解决了访问ESMC-6B模型时的403 Forbidden问题

2025-02-19 18:29:21 385 3

原创 ESMC-600M蛋白质语言模型本地部署攻略

之前介绍了ESMC-6B模型的网络接口调用方法,但申请token比较慢,有网友问能不能出一个本地部署ESMC小模型的攻略,遂有本文。其实本地部署并不复杂,官方github上面也比较清楚了。后面讲述了esmc-decode接口的使用方式。

2025-01-25 20:02:42 1503 30

原创 DGL库使用非cuda:0显卡时报错RuntimeError: CUDA error: an illegal memory access was encountered解决办法

问题是在访问消息函数的参数edges.dst中的res属性(一个自定义属性)时,发生了报错。并非寻常的因为运算的tensor设备不一致而导致的CUDA报错。在调试过程中,甚至出现了删去不相关的变量的时候就停止报错的情况,严重怀疑是DGL库在cuda的内存管理出现了问题,实在调不出来了,便放弃了。很奇怪的一次报错,错误位置在自定义的DGL消息传播过程的消息函数(Message Function)中。最简单的解决办法就是使用cuda:0,然后使用CUDA_VISIBLE_DEVICES来指定GPU设备。

2025-01-04 23:23:56 410

原创 关于ESMC-6B蛋白质语言大模型API的使用(ESM3/ESMC简介、batch序列数据输入尝试)

拼尽全力,依然无法战胜。没能让ESM团队用出全力,真是遗憾呢。

2024-12-17 01:52:00 2586 12

原创 Struct2GO模型复现报告

非常朴实的模型,序列和结构特征融合采用了拼接。数据集使用的人类蛋白质。序列特征就是简单的Seqvec特征取mean,对每个蛋白质获得一个1024维的特征向量。主要看蛋白质结构特征提取部分,采用的是GCN和层次池化,根据原代码,只对距离在10 A以内Cα原子对进行建边,然后只用节点特征(这里的节点特征并没有包含空间坐标,估计是认为空间坐标信息在边上,所有就没加了),包含氨基酸的独热编码和node2vec嵌入。网络结构代码:SAGPool是根据图注意力进行topk池化的层。

2024-12-09 02:25:17 1051 6

原创 基于gradio+networkx库对图结构进行可视化展示

在gradio框架下对蛋白质-蛋白质相互作用网络(PPI网络)进行可视化,并将其在网页前端进行展示。

2024-11-17 23:47:06 488 1

原创 2024年11、12月记录

广播机制。pigz的使用。dgl库batch的处理。使用浏览器访问wsl内部署的网站。

2024-11-11 22:54:35 217

原创 Nginx简易配置将内网网站ssh转发到外网

本文简要讲述了通过ssh反向代理将内网网站部署至外网服务器的操作,通过Nginx转发外网的http访问到内网服务器,从而获取内网网站信息。

2024-11-09 23:02:02 989

原创 机器学习课程总结(个人向)

本文主要总结了机器学习课程中的大部分知识点,包含概念学习、决策树、ANN、贝叶斯推理、无监督学习、基于实例的学习、回归学习、线性分类器、特征选择与稀疏学学习。包含有LMS算法、Find-S算法、候选消除算法、ID3、C4.5、朴素贝叶斯、Gibbs算法、Kmeans、层次聚类、KNN、径向基函数RBF、线性回归、逻辑回归、softmax回归、SVM、Widrow-Hoff算法、relief-F算法、LVW算法、字典学习等内容。

2024-11-08 03:48:09 1141 3

原创 依赖标签分类任务Smin值计算(蛋白质功能预测,GO标签)

Smin是在蛋白质功能预测中比较流行的一个指标,具体由来我也不甚清楚,只是在最近复现的几篇论文中反复出现了,所以记录一下。

2024-10-21 05:36:29 624

原创 10月下半记录

之后又出现了这种情况,reload window的时候突然断连了,关掉terminal之后再进行reload window就又好了,很奇怪,可能是vscode选择环境和conda出现了一些冲突。indices和data的长度均为矩阵中的非零值个数,indtpr长度为矩阵行数+1且单调不降,且最后一个值等于矩阵中的非零值个数。则说明data[0,1)的值a在第一行,data[1,4)的值bcd在第二行,data[4,8)的值efgh在第三行,第四行没有值。之前都可以正常连接,但是突然就不对了。

2024-10-14 22:08:04 225

原创 PO2GO、PO2Vec论文阅读与模型复现报告

今年的一篇经典蛋白质功能预测论文,思路自然,效果也不错模型主要分为两个部分,PO2Vec和PO2GO,PO2Vec是PO2GO的一个模块。数据集使用了CAFA3和Swissprot,使用的是蛋白质序列特征和GO标签依赖关系特征。

2024-09-25 22:08:01 1118 5

原创 InterPro蛋白质结构域数据下载

偶然发现InterPro数据库挺不错的。之前使用selenium爬取了AlphaFlod数据,于是也想试试把InterPro的结构域数据爬取一下。结果发现官方已经给好了代码,真是太善解人意了。当然,想要批量下载还需要魔改一下官方代码。

2024-09-16 00:29:46 1368

原创 配置vscode终端自动激活anaconda的python环境

每次使用vscode写python代码的时候,都需要在外面跑一个anaconda prompt,激活环境,然后进入对应的文件夹,运行代码,特别麻烦,所以想,能不能直接在vscode终端里面激活环境然后运行。

2024-09-04 19:55:10 2702 1

原创 CTF密码学小结

3、yafu工具分解质因数,78位数分解约使用3分钟,非常好的工具,集成了试除法、fmt、pollar_rho、ecm等各种各样质因数分解方法,并且做了许多并行计算的优化,相当高效。SVP问题,就是求格中范数最小的向量,CVP问题,就是给定一个向量,求格中的向量离他距离的最小值。复杂的都是O(a^k)级别的(a是常数,k是格基的大小(一般和向量维数相近))1、random设置种子后随机的性质:同一个种子生成同一个序列,如果把生成的序列中的某个数又作为种子,这样迭代生成的序列,只与第一条序列的种子相关。

2024-08-17 18:45:05 1489

原创 使用Selenium爬虫批量下载AlphaFold数据库中的PDB文件

提供一个简便的AlphaFold数据库蛋白质PDB文件下载方法,提供了使用selenium方法和wget方法下载数据的代码。

2024-07-29 00:38:48 870

原创 七月记录上半

exit:关闭当前窗口,并结束此窗口下创建的所有进程(?mysql -u root -p 数据库名 < 脚本名。screen -r 窗口号 :调用该窗口。screen -S 窗口名:创建窗口。screen -ls :查看所有窗口。ctrl+a+d:退出窗口。

2024-07-07 23:03:56 263

原创 2024蓝桥杯国赛C++研究生组游记+个人题解

开始复习,过了一遍大部分板子本来打算再学一遍SAM,但是想到去年考了字符串大题今年应该不会再考了吧。。过了一遍数据结构和图论,就1点了两点的时候还没睡着,舍友打游戏好像打到2点过。。

2024-06-01 22:30:13 2040 8

原创 Mysql报错红温集锦(一)(ipynb配置、pymysql登录、密码带@、to_sql如何加速、触发器SIGNAL阻止插入数据)

这是一篇问题与报错集锦:jupyter notebook无法使用%sql来添加sql代码,密码带@怎么登录,pandas库的to_sql函数怎么加速,使用触发器阻止某条数据的插入与to_sql冲突了怎么办。没正确的登录到mysql用户上通过notebook添加mysql代码需要登陆对应的mysql用户和数据库否则就会遇到$DATABASE_URL not set这种报错怎么登录?格式如下A:用户名、B:密码C:数据库服务器的IP地址,如果是连接本机就写 localhost。

2024-05-04 21:44:38 943

原创 蛋白质PDB文件解析+建图(biopython+DGL)

PDB文件设计得非常好,能够比较完整地记录实验测定数据从蛋白质结构来看,首先它会有多种不同的测定模型,然后每个模型中包含多条链,每条连上包含若干个残基,每个残基包含若干个原子在biopython.PDB包中可以找到这些概念对应的模块:model、chain、residue、atom首先用PDBParser读取文件,获得structurestruct内部的一层结构是model,我们只取第一个model然后就可以用循环遍历chains、residues、atoms。

2024-05-03 21:01:13 1730

原创 注意力机制略解

本文简要地介绍了注意力机制,Q、K、V矩阵的含义,注意力评分函数的计算方式,并提及了Transformer的相关内容

2024-04-29 00:02:30 1547

原创 seq2seq架构略解

在预测时,在第一步预测完毕之后,使用的dec_state会继承解码器RNN的隐藏层状态,而不是保持编码器所获取的隐藏层H1的信息。若数据集为{ }(AB语言对应的句子组)A语言的单词序列+结束符(a1,a2,a3,a4,a5,)开始符+B语言的单词序列(,b1,b2,b3,b4,b5)A语言的单词序列+结束符(a1,a2,a3,a4,a5,)B语言的单词序列(b1,b2,b3,b4,b5,)

2024-04-26 21:43:48 516

原创 2024蓝桥杯省赛C++软件算法研究生组题解(含代码)+游记

2024蓝桥杯C++软件算法研究生组,数学题较多,树相关题较多,个别题目比较综合本文包含简要的题意与大部分题目的详细题解与代码实现,最后还有一些游记内容。

2024-04-13 17:31:42 4132 12

原创 关于Anaconda通过environment.yml配置环境的常见问题解决办法

配环境总是一个老生常谈的问题,有些项目写得好的,会把一些冗余的包删除,只留下必要的包,并且手把手教你pip安装,但是有些项目就直接丢一个200~300行的environment.yaml文件或者requirement.txt文件让你自己去配,虽然也有相关的环境配置内容,但能够按照步骤一次通过配置的可能性很低,而且大部分问题会跟系统环境、pytorch版本、anaconda版本有关,最终结果就是有些包配了半天终于配好了,结果代码里面直接一个注释不用了,总之就是让人十分折磨。

2024-03-29 21:40:16 18264 14

原创 24年3月下半笔记(个人向)

正则化(规范化),统一参数的量级,避免训练时参数运算的数量级不同导致一个学习率无法适应多个层级的训练,规范化层的运算就是B(x)=k((x-均值)/标准差)+b,这里的均值和方差是通过一个小批量的数据来统计的(所以叫批量规范化,一般适用于50~100的batch_size),k是对正则化后的tensor做一个对应乘法,只在单个数据上操作,不涉及数据间的组合。之后在服务器上配个环境再来跑跑。简单来说,马尔可夫模型就是一条状态链,确定了每一步的转移都只与前面的状态有关(类比于线上的动态规划,递推方程之类的)。

2024-03-19 19:59:43 518

原创 机器学习分类模型评价指标总结(准确率、精确率、召回率、Fmax、TPR、FPR、ROC曲线、PR曲线,AUC,AUPR)

TP、FP、TN、FN准确率、精确率(查准率)、召回率(查全率)真阳性率TPR、伪阳性率FPRF1-score=2TP/(2*TP+FP+FN)最大响应分数Fmax为F1-score的最大值(在最佳阈值的前提下)

2024-01-22 17:45:15 1159 1

原创 2024 ICPC EC final游记+BEFL题解

给定一个只含大写I和大写V的字符串,需要寻找一个划分策略,使得划分之后的每个子串是罗马数字,且连续组合而成的数字最小例如 IVIIVII划分为IV,II,VII,组合而成的数字为427串长

2024-01-21 13:31:42 2528

原创 1月下半笔记(个人向)

若次大值在第五位,那么1234位中一定有三位小于次大值,而最大值一定在1、2位,所以3、4位一定小于第五位的次大值,那么3、4位必定弹出一个,矛盾。结构比对算法已经有很多优秀的算法了,比如CE、TM-align、DALI、VAST、K2、SHEBA等之类的,似乎不用自己再写一个了。想到要对蛋白质可视化,然后去找可以用于三维绘图的库,找到了OpenGL,在wsl里面装了一个,发现挺方便,准备开始学。用反证法,最大值在第三位,那么,1、2位都会小于第三位,那么应该弹出1、2位之一,矛盾。

2024-01-18 21:01:42 669

原创 [THUPC 2024 初赛] 二进制 (树状数组单点删除+单点查询)(双堆模拟set)

​我们可以枚举序列长度len,然后用类似滑动窗口的方法,一次性预处理出每种字串的所有出现位置,也就是开N个set去维护所有的位置。预处理会进行O(logn)轮,每次需要O(n*logn)的时间复杂度初始化set并计算位置。总共复杂度O(nlog^2n),看一下时间限制6s,感觉可以过23333。删除操作可以直接暴力,直接从每种字串的位置集合中删除所有被影响到的位置,然后再把删除后字符串合并产生的新的子串加入到set中,过程中需要支持O(logn)的单点删除和单点查询。

2023-12-23 22:42:28 823

原创 【Django】【MySQL】Django中使用MySQL Decimal数据后报错Object of type Decimal is not JSON serializable解决办法

​其实这个错误用不着去修改数据库中的数据类型当MySQL里面的Decimal类型需要传入request进行暂存时,Django的框架会调用一个json.dumps可以发现这里user_id是Decimal('0'),麻中麻把Decimal类型的数据按照情况,转换成int、float、str进行保存就行了这样传request参数的时候就可以正常传入啦!改完这个之后就可以正常运行了看到之前写的好多博客如果是我们手动使用json.dumps的话,里面如果有Decimal也

2023-10-29 16:33:59 457

原创 【MySQL】使用mysqld时,报错 [ERROR] [MY-013276] [Server] Failed to set datadir to ‘xxxxx‘ 解决办法

我的MySQL启动可以直接连接,但是就是无法使用密码验证,后来出现pymysql和MySQL连接的时候出现了无法鉴权的问题:pymysql.err.OperationalError: (1045, "Access denied for user 'root'@'localhost' (using password: YES)")后来发现是mysqld无法直接运行,原因应该是安装的时候发生了一些问题,导致MySQL Server没有安装完整,可能是用的服务名为mysql80导致的(比较奇怪)

2023-10-27 17:35:44 1481

原创 Python手搓C4.5决策树+Azure Adult数据集分析

这次实验花费了很长时间在数据集的分析和处理上包括年龄和资本收支的分箱、离散值归并,并且发现了测试集数据中income标签与训练集不同的问题。决策树构建过程中花费了许多时间去查询pandas的批处理函数,如果之前有pandas库调用的基础会好很多。决策树存储结构选用numpy是不太合适的,因为每一个节点的结构儿子个数是不定的,如果按照最多分支数来设置矩阵的列数会有很多空间是浪费的。使用list+dict保存每个节点的数据,用json文件存储读取应该会方便一些。

2023-10-24 23:48:30 1759 6

原创 Python爬虫爬取豆瓣电影短评(爬虫入门,Scrapy框架,Xpath解析网站,jieba分词)

很久之前就想学爬虫了,但是一直没机会,这次终于有机会了主要参考了《疯狂python讲义》的最后一章

2023-09-25 21:26:16 3098

原创 CF208E Blood Cousins

题目大意:给出一个n个点的森林,m次询问,每次求一个点的k级亲戚的数量k级亲戚定义为,u≠v,u,v的k级祖先相同,则u,v为k级亲戚。

2023-08-31 20:37:01 332

原创 [USACO07DEC] Sightseeing Cows G(分数规划+负权回路判定)

题目大意:给出一张n点m边的带点权带边权的有向图求一个回路使得路上点权和除以边权和最大(最优比率回路)

2023-08-30 18:16:16 247

原创 [NOI2014] 随机数生成器(模拟+贪心)

我们可以发现一个性质,对于每一行(每一列)来说,我们可以选择的路径一定是该行或者该列的一个区间。首先肯定需要将最小的数放到路径上,这样可选的剩下的数就被限制在了最小数的左上区间和右下区间。记录所有已经被选择的路径点,然后二分x,找到x最邻近的两个点,判断y是否在他们之间?后来发现可以直接从小到大枚举所有的数,判定当前枚举到的数是不是在可行区间中就可以了。这样就变成了O(n)将一个点加入路径,O(1)判断一个点是否能被加入路径。一共只会将n+m-1个点加入路径,需要判断的有n*m个点。

2023-07-08 16:19:54 324

原创 2023蓝桥杯大学A组C++国赛游记+个人题解

总之就是非常菜,简单题背不到公式,板题背不到板子,题目都写不完,太菜了。

2023-06-10 18:30:17 2769

原创 第十四届蓝桥杯广东省省赛游记+个人题解

第一题、第二题直接暴力就可以算出结果了,第二题暴力比较拉夸,跑了可能有一分钟才出结果。第三题寻找L~R之间平方差数(z=x^2-y^2)的个数数论推一下可以发现非平方差数只可能是4n+2的形式(打表也可以找到规律)然后就把L~R拆成1~R-1~L-1算就结束了第四题给一个数字串,选一个区间反转,使得反转后数字更小,求这样的区间的个数n

2023-04-08 17:52:13 1654 7

原创 关于一笔画问题的一些思考(欧拉路Fleury算法、逐步插入回路法、以及另一种可能的解法)

这是一个经典的图论问题了最近复习离散的时候又恰好看到了,发现自己以前的解法似乎有点bug然后开始出反例卡自己,结果发现卡不掉?然后再好好想了想,发现这个看起来有问题的做法可能确实没问题。注意:欧拉路、欧拉回路、欧拉图、半欧拉图四个概念的区别。

2023-02-11 15:26:24 1506

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除