生信小白菜儿-优快云博客

原创一文读懂全外显子组测序

下面是本人自学全外过程中总结的所有知识点。

2025-10-15 11:22:44 1102

原创以我们都能听懂的语言理解一二三代测序

把《哈利波特》撕成纸条，每张纸条复印100次，最后用电脑拼出完整故事。但遇到重复句子（如“伏地魔回来了”），可能拼错位置。用扫描仪一页页扫《哈利波特》，直接看到完整章节，甚至发现作者用隐形墨水写的隐藏剧情（复杂结构变异）。你有一本《哈利波特》，但只想知道第100页的内容。Sanger测序会精准抄写这一页，但不管其他页。

2025-02-27 11:37:41 1134

2.根据s键，进行搜索，查看值是从什么地方生成：根据s键名搜索返回内容过于多、根据堆栈跟栈调试 XHR断点调试、搜索MD5加密关键代码（MD5指的是长度32位，由0-9 a-f组合起来的值）方法——可以直接复制:开发者工具->网络->点击对应数据包->标头->请求标头 ->cookie/ua/referer..（复制之后在代码中字典形式）对于不同翻译内容，有两个关键点：（1）text:输入需要被翻译的内容(文本内容)；2）请求方法:开发者工具->网络->点击对应数据包->标头->常规。

2025-01-07 16:23:16 1579

原创 linux服务器cpu内核及线程数查询及计算

根据上述的“Core(s) per socket”和“Socket(s)”得：总的核心数为 28 核心/插槽 × 2 插槽 = 56 核心。再根据“Thread(s) per core”得总的线程数（逻辑CPU数）为 56 核心 × 2 线程/核心 = 112 线程。

2024-11-19 17:36:30 1240

原创解决R语言包安装报错：~miniconda3/bin/../lib/gcc/x86_64-conda-linux-gnu/7.5.0/specs: No such file or directory

解决了这个问题后又出现了其他报错：~x86_64-conda-linux-gnu/bin/ld: cannot find -lR: No such file or directory。然后查找~x86_64-conda-linux-gnu/bin/lib下的相对应的函式库文件(.so) 的symbolic link 是否正确（即libR.so）这个报错的意思是编译过程找不到对应库文件，-lR表示的是链接库文件libR.so。安装x86_64-conda-linux-gnu-cc。当不存在是，创建软连接。

2024-10-24 15:03:56 1019

原创 linux中运行conda命令出现报错：module ‘libmambapy‘ has no attribute ‘QueryFormat‘

解决方法：先删除原有的conda-libmamba-solver，然后重新安装。

2024-10-22 11:19:53 2146 1

原创 cat not import name “tarfile“ from ‘backports’ ,Failed to execute script pyi rth pkgres’due to ...

第二步：我这里报错的原因是由于NumPy 2.0.1版本与一些模块不兼容导致的。第三步：这里报错的原因是：scipy 的版本是1.7.2，与降级后的numpy-1.26.4不兼容，解决方法是对scipy升级版本（截止目前最新的版本是1.14.1。然后重新使用pyinstaller打包，这里发现之前的报错信息没有出现了，说明打包的问题已解决。

2024-08-22 16:12:01 1943

原创解决Python中使用matplotlib库画图时中文不显示的方法

一般这个库的命令在：“`~/miniconda3/lib/python3.12/site-packages/matplotlib/”，进入此路径，并继续进入此路径下的/mpl-data/fonts/ttf，把下载好的中文字体复制到此路径下。这里建议把这个文件同时复制到matplotlib库下的字体目录，我试验过，没有复制的情况下不会影响输出，但是为了长期使用不会出错，还是建议复制一份到该库的目录里。第一种情况：若运行结果不为空，则直接在脚本里加上这几行即可。最后，再重新验证即可。

2024-08-16 15:52:07 1077

原创 python的ggplot库报错：AttributeError: module ‘pandas‘ has no attribute ‘tslib‘

解决方法：打开对应目录下的utils.py编辑，将“pd.tslib.Timestamp”修改为“pd.Timestamp”，如下图。

2024-08-14 10:08:58 306

原创 python：当from docx import Document 报错时：moduleNotFoundError:No module named ‘exceptions‘

之后，from docx import Document 就不会报错了。

2024-08-14 09:34:57 348 1

原创 R语言的cbind和rbind如何区分

m行的矩阵与n行的矩阵rbind()最后变成m+n行，合并前提：rbind(a, b)中矩阵a、b的列数必需相符。，m列的矩阵与n列的矩阵cbind()最后变成m+n列，合并前提：cbind(a, b)中矩阵a、b的行数必需相符。在R语言中，我们可以利用函数cbind() 和rbind() 把向量和矩阵拼成一个新的矩阵。cbind（列方式）：把矩阵横向合并成一个大矩阵，根据列进行合并，即。rbind（行方式）：纵向合并，根据行进行合并，就是。

2024-07-24 10:56:12 1275

转载变异位点注释工具比较

如果你需要广泛的注释信息和较少的配置工作，VEP可能是不错的选择。无论你选择哪个工具，这些工具都是生物信息学研究中不可或缺的工具，有助于解释基因组变异的生物学含义。它的主要功能包括确定变异的功能影响、注释突变的影响，例如非同义突变、错义突变和无义突变等，并根据数据库提供的信息进行变异分类。它支持多种基因组版本，可以识别和注释各种类型的变异，如单核苷酸变异、插入/删除、结构变异等。VEP还提供了丰富的注释信息，包括变异的功能、频率、疾病相关性等，可以帮助研究人员更全面地了解变异的生物学意义。

2024-07-10 15:21:51 616

原创 ctDNA深度测序检测

cfDNA含量很低，大部分为1~100ng/mL，90%的健康个体每毫升血液中的cfDNA量不超过25ng，而肿瘤发生和进展时cfDNA量会明显增高，多数研究认为，在肿瘤细胞坏死，凋亡即自分泌过程中均可释放一定量的ctDNA进入血液循环系统。ctDNA来自肿瘤细胞的体细胞突变，因此，ctDNA是一种特征性的肿瘤生物标志物，可被定性、定量和追踪。对于无法获取足够的组织标本的肿瘤患者，例如无法进行活检或手术、穿刺受检者严重不适感、取材时间点受限、很难进行多次取样、肿瘤异质性等情况，更适合做ctDNA业态活检。

2024-06-21 10:47:30 904

原创 Excel中匹配函数的使用

一个表格里有两个子表，sheet1里有A、B两列。而sheet2里只有A列信息、B列是空白的，现在的目的是根据sheet2中的A列信息查找sheet1中A列对应的B列信息，补充sheet2的B列对应的信息。

2024-04-24 15:31:54 253

原创基因引物序列的查找

勾选show results in a new window，这是结果在新页面展示的意思，最后点击Get Primers。点击进去，在Primer Parameters里将primerbank里检索到的引物序列粘贴上去。引物length一般在15-30bp，常用的为18-27bp，但不应大于38bp。Tm值范围为55-65°C，上下游引物Tm值不宜相差太大，最好不要超过5度。显示字母为不匹配，不匹配的多于5到6个说明引物不太合适。GC%一般为40%-60%，以45-55%为宜。第一步，先在NCBI官网。

2024-04-24 14:53:55 6185 1

原创在linux服务器安装python模块matplotlib，明明已安装成功，但仍显示无此模块的解决方法

首先是升级pip：然后安装模块：将模块升级到最高版本：然后就可以解决了！！！

2024-04-03 09:27:28 467 1

原创 linux访问华为云OBS的方法

官方文档#打开命令行终端，执行命令下载obsutil工具#在软件包所在目录，执行以下解压命令。#进入obsutil所在目录，执行以下命令，为obsutil增加可执行权限#继续在目录中执行以下命令，如果能顺利返回obsutil版本号，说明安装成功。#使用永久AK、SK进行初始化配置：ak-k=sk-e=endpoint#使用临时AK、SK、SecurityToken进行初始化配置：ak-k=sk-t=token-e=endpoint其中，ak即。

2023-12-28 11:43:53 2161

原创 VirSorter2的安装及使用

virsorter setup -d db -j 4 （这里的4代表用4个线程运行，这里可修改为自己服务器对应的线程，线程越大，运行越快）#激活vs2环境后使用-j 4个线程运行，输入all 所有结果，-w指定输入结果的文件夹。final-viral-score.tsv —— 表示每条序列的各分类类别得分表格。官方推荐的安装方法是用mamba安装，若没安装有mamba，可参考我这篇博文先安装mamba。final-viral-boundary.tsv —— 表示每条序列的信息表格。

2023-12-21 10:44:40 3007 5

原创 cap3在Linux下的安装

方法2，通过官网下载源代码。

2023-12-20 10:06:13 742

原创 mamba的安装教程

【代码】mamba的安装教程。

2023-12-13 14:12:31 4263

原创常见的机器学习算法简介

它们的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y =w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。knn一般指邻近算法。

2023-11-14 15:55:08 175

原创 python安装模块出现网速问题的解决办法

当 pip install 模块名出现报错：pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org...如果是linux系统会区分python2还是python3，python3要用pip3。

2023-11-10 14:41:31 304

原创解决：R语言ggsave保存的图片中的文字不显示

使用下面代码解决if(!

2023-11-02 14:50:33 894

原创 R语言中安装加载包的最便捷方式

这个命令的意思是：需要加载某包，先查找有没有下载过这个包，若不存在这个包，则运行的是直接一步安装并加载这个包，省去了先安装再加载的分步运行；若存在这个包，则运行的是加载这个包。这个命令的优点是：不会重复安装包，若脚本里写的是 install.packages("包名")，则会重复安装。require(包名))install.packages("包名")

2023-11-01 16:19:07 798

原创 16进制颜色码和对应的RGB格式

橄榄土褐色（褐绿色）（浓汤）乳脂，番茄等。

2023-11-01 15:00:21 7391

原创 R语言报错Error in .jcall(“RJavaTools“, “Ljava/lang/Object；“, “invokeMethod“, cl, : java.lang.OutOfMe

Rstudio报错：Error in .jcall("RJavaTools", "Ljava/lang/Object;报错原因：软件内存不足。

2023-10-09 15:52:25 621

原创 RNA-seq（转录组测序生信分析）去除rRNA的方法

S：生成的sam文件，这个可以不写，但若不写，会在终端直接输出很长很多的sam文件，虽然不影响结果，但个人觉得眼花，所以我写了这个参数和指定输出文件名。-un-gz：说明是双端数据，后面接-1和-2和分别对应的数据；若是单端数据，则参数换成--un-conc-gz，后面接-U和其对应的单端数据。-x ：是对应的rRNA参考基因组，书写方式是——对应路径到前缀名。首先，在NCBI上下载对应参考基因组的RNA序列，下载链接如下。rRNA.fa是下载的rRNA序列，rRNA是所有索引的前缀名。

2023-09-22 16:30:25 2114 1

原创测序数据深度怎么求

先将二代测序的下机数据转化为fastq格式，可以然后比对到参考基因组得到sam文件，再将sam文件转化为排序好的bam文件，利用samtools软件就可以求出数据的测序深度。

2023-09-05 10:56:46 1067 1

原创生信各基础名词解释

是特定基因转录的DNA区域，在基因的非编码区，即编码区的上游，转录mRNA的时候与RNA聚合酶结合的位点，告诉RNA聚合酶从启动子开始转录。：mRNA上的3个相邻碱基，共有4的3次方种，即64种，其中决定氨基酸的密码子有61种，决定20种氨基酸（C1/4+2C2/4+C3/4=20氨基酸），另外，UAA、UAG、UGA这三个密码子不能决定任何氨基酸。：终止子也在基因非编码区，即编码区的下游，处于基因或操纵子的末端，是告诉RNA聚合酶转录到此结束的DNA序列。：指的是，基因转录产生的RNA，也称为转录本。

2023-08-18 11:01:39 2462 1

原创全外显子组测序的bed文件如何制作

后面是对最终的结果进行排序，先按照第一列进行排序（-k1,1）再按照第二列以数值的方式进行排序（-k2,2n）。最后，再用bedtools把可能有重叠的部分整合之后，就能得到我们想要的结果。然后用gtf文件处理。

2023-08-17 16:59:29 1189 1

原创 microRNA简介

物种间的差别最主要是由于microRNA表达的异时性变化和较小程度的空间表达差异。miRNA是一类小的调节RNA在细胞增殖，细胞死亡，细胞发育和分化，病毒感染，造血，肿瘤发生等生物过程中发挥重要作用。miRNA的序列结构在各个物种间具有高度的进化保守性，最具有microRNA 保守性的是let-7，它广泛存在于两侧对称的生物体中，其序列保守性令人吃惊。1、miRNA是广泛存在于真核生物中的一组短小的、不编码蛋白质的RNA家族，它们是由19-23个核昔酸组成的单链RNA(3“端可有1~2个碱基长度的变化)。

2023-08-01 13:47:22 1013 1

原创 PRS分析在linux上实操

PRSice_BARPLOT_*.png：这个柱形图，是应用比较广泛的图，X坐标是不同P值，Y坐标是PRS风险得分的解释百分比（R2），柱形图最高的点表示该模型最优，比如下面图中，在P值为0.4463时，模型最优，解释的百分比是5%左右，P值为4.7e-18，极显著。PRSice.summy文件——这个文件，是给出最优模型的结果，比如适合的SNP个数，R2，回归系数，P值等信息。--base，是基础数据，这里是GWAS的结果，TOY_BASE_GWAS.assoc。--dir，默认是当前路径。

2023-08-01 10:56:41 725 1

原创基础的常用的生信分析方法

PRS(Polygenic risk score)也叫PGS（Polygenic score）是在GWAS基础上发展起来的，PRS（多基因风险评分）是将与某种表型相关联的一组风险SNP的基因型效应加权来计算个体对该种表型（多指患病表型）的倾向的遗传学方法。可以看出GWAS的缺点是忽略了多基因的作用。多基因风险评分主要针对的是多基因遗传疾病，比如二型糖尿病、非酒精性脂肪肝、冠心病、哮喘和一些癌症等，这类疾病的特点是缺乏主效基因（对疾病发生发展有巨大作用的基因）并且可以通过改变环境因素来遏制其发生发展。

2023-07-21 16:50:35 3735 1

原创基因检测中的PANEL是什么？

人体内的基因有2万多个编码蛋白质的基因，也有虽然不编码蛋白质，但是在人的疾病发生和天赋潜能中发挥重要作用的基因，人的基因的碱基数量高达64亿中，基因PANEL只是选择了部分基因。基因PANEL是一个基因组合，在基因检测中使用基因PANEL所检测的基因比单一的位点要多，比PCR技术检测的序列要长，相对来说，获得的基因信息量要多一些。3个基因是一个PANEL， 5个基因也是一个PANEL，100个基因也是一个PANEL，所以用基因PANEL进行基因检测，要首先看基因PANEL也就是基因组合中基因数量的多少。

2023-07-21 15:00:01 3077 1

空空如也

空空如也