自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 以我们都能听懂的语言理解一二三代测序

把《哈利波特》撕成纸条,每张纸条复印100次,最后用电脑拼出完整故事。但遇到重复句子(如“伏地魔回来了”),可能拼错位置。用扫描仪一页页扫《哈利波特》,直接看到完整章节,甚至发现作者用隐形墨水写的隐藏剧情(复杂结构变异)。你有一本《哈利波特》,但只想知道第100页的内容。Sanger测序会精准抄写这一页,但不管其他页。

2025-02-27 11:37:41 270

原创 python制作翻译软件

2.根据s键,进行搜索,查看值是从什么地方生成:根据s键名搜索返回内容过于多、根据堆栈 跟栈调试 XHR断点调试、搜索MD5加密关键代码(MD5指的是长度32位,由0-9 a-f组合起来的值)方法——可以直接复制:开发者工具->网络->点击对应数据包->标头->请求标头 ->cookie/ua/referer..(复制之后在代码中字典形式)对于不同翻译内容,有两个关键点:(1)text:输入需要被翻译的内容(文本内容);2)请求方法:开发者工具->网络->点击对应数据包->标头->常规。

2025-01-07 16:23:16 1429

原创 linux服务器cpu内核及线程数查询及计算

根据上述的“Core(s) per socket”和“Socket(s)”得:总的核心数为 28 核心/插槽 × 2 插槽 = 56 核心。再根据“Thread(s) per core”得总的线程数(逻辑CPU数)为 56 核心 × 2 线程/核心 = 112 线程。

2024-11-19 17:36:30 812

原创 解决R语言包安装报错:~miniconda3/bin/../lib/gcc/x86_64-conda-linux-gnu/7.5.0/specs: No such file or directory

解决了这个问题后又出现了其他报错:~x86_64-conda-linux-gnu/bin/ld: cannot find -lR: No such file or directory。然后查找~x86_64-conda-linux-gnu/bin/lib下的相对应的函式库文件(.so) 的symbolic link 是否正确(即libR.so)这个报错的意思是编译过程找不到对应库文件,-lR表示的是链接库文件libR.so。安装x86_64-conda-linux-gnu-cc。当不存在是,创建软连接。

2024-10-24 15:03:56 626

原创 linux中运行conda命令出现报错:module ‘libmambapy‘ has no attribute ‘QueryFormat‘

解决方法:先删除原有的conda-libmamba-solver,然后重新安装。

2024-10-22 11:19:53 1252 1

原创 cat not import name “tarfile“ from ‘backports’ ,Failed to execute script pyi rth pkgres’due to ...

第二步:我这里报错的原因是由于NumPy 2.0.1版本与一些模块不兼容导致的。第三步:这里报错的原因是:scipy 的版本是1.7.2,与降级后的numpy-1.26.4不兼容,解决方法是对scipy升级版本(截止目前最新的版本是1.14.1。然后重新使用pyinstaller打包,这里发现之前的报错信息没有出现了,说明打包的问题已解决。

2024-08-22 16:12:01 1642

原创 解决Python中使用matplotlib库画图时中文不显示的方法

一般这个库的命令在:“`~/miniconda3/lib/python3.12/site-packages/matplotlib/”,进入此路径,并继续进入此路径下的/mpl-data/fonts/ttf,把下载好的中文字体复制到此路径下。这里建议把这个文件同时复制到matplotlib库下的字体目录,我试验过,没有复制的情况下不会影响输出,但是为了长期使用不会出错,还是建议复制一份到该库的目录里。第一种情况:若运行结果不为空,则直接在脚本里加上这几行即可。最后,再重新验证即可。

2024-08-16 15:52:07 749

原创 python的ggplot库报错:AttributeError: module ‘pandas‘ has no attribute ‘tslib‘

解决方法:打开对应目录下的utils.py编辑,将“pd.tslib.Timestamp”修改为“pd.Timestamp”,如下图。

2024-08-14 10:08:58 254

原创 python:当from docx import Document 报错时:moduleNotFoundError:No module named ‘exceptions‘

之后,from docx import Document 就不会报错了。

2024-08-14 09:34:57 192 1

原创 R语言的cbind和rbind如何区分

m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, b)中矩阵a、b的列数必需相符。,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, b)中矩阵a、b的行数必需相符。在R语言中,我们可以利用函数cbind() 和rbind() 把向量和矩阵拼成一个新的矩阵。cbind(列方式): 把矩阵横向合并成一个大矩阵,根据列进行合并,即。rbind(行方式): 纵向合并,根据行进行合并,就是。

2024-07-24 10:56:12 974

转载 变异位点注释工具比较

如果你需要广泛的注释信息和较少的配置工作,VEP可能是不错的选择。无论你选择哪个工具,这些工具都是生物信息学研究中不可或缺的工具,有助于解释基因组变异的生物学含义。它的主要功能包括确定变异的功能影响、注释突变的影响,例如非同义突变、错义突变和无义突变等,并根据数据库提供的信息进行变异分类。它支持多种基因组版本,可以识别和注释各种类型的变异,如单核苷酸变异、插入/删除、结构变异等。VEP还提供了丰富的注释信息,包括变异的功能、频率、疾病相关性等,可以帮助研究人员更全面地了解变异的生物学意义。

2024-07-10 15:21:51 232

原创 ctDNA深度测序检测

cfDNA含量很低,大部分为1~100ng/mL,90%的健康个体每毫升血液中的cfDNA量不超过25ng,而肿瘤发生和进展时cfDNA量会明显增高,多数研究认为,在肿瘤细胞坏死,凋亡即自分泌过程中均可释放一定量的ctDNA进入血液循环系统。ctDNA来自肿瘤细胞的体细胞突变,因此,ctDNA是一种特征性的肿瘤生物标志物,可被定性、定量和追踪。对于无法获取足够的组织标本的肿瘤患者,例如无法进行活检或手术、穿刺受检者严重不适感、取材时间点受限、很难进行多次取样、肿瘤异质性等情况,更适合做ctDNA业态活检。

2024-06-21 10:47:30 555

原创 Excel中匹配函数的使用

一个表格里有两个子表,sheet1里有A、B两列。而sheet2里只有A列信息、B列是空白的,现在的目的是根据sheet2中的A列信息查找sheet1中A列对应的B列信息,补充sheet2的B列对应的信息。

2024-04-24 15:31:54 143

原创 基因引物序列的查找

勾选show results in a new window,这是结果在新页面展示的意思,最后点击Get Primers。点击进去,在Primer Parameters里将primerbank里检索到的引物序列粘贴上去。引物length一般在15-30bp,常用的为18-27bp,但不应大于38bp。Tm值范围为55-65°C,上下游引物Tm值不宜相差太大,最好不要超过5度。显示字母为不匹配,不匹配的多于5到6个说明引物不太合适。GC%一般为40%-60%,以45-55%为宜。第一步,先在NCBI官网。

2024-04-24 14:53:55 3884 1

原创 在linux服务器安装python模块matplotlib,明明已安装成功,但仍显示无此模块的解决方法

首先是升级pip:然后安装模块:将模块升级到最高版本:然后就可以解决了!!!

2024-04-03 09:27:28 386 1

原创 linux访问华为云OBS的方法

官方文档#打开命令行终端,执行命令下载obsutil工具#在软件包所在目录,执行以下解压命令。#进入obsutil所在目录,执行以下命令,为obsutil增加可执行权限#继续在目录中执行以下命令,如果能顺利返回obsutil版本号,说明安装成功。#使用永久AK、SK进行初始化配置:ak-k=sk-e=endpoint#使用临时AK、SK、SecurityToken进行初始化配置:ak-k=sk-t=token-e=endpoint其中,ak即。

2023-12-28 11:43:53 1480

原创 VirSorter2的安装及使用

virsorter setup -d db -j 4 (这里的4代表用4个线程运行,这里可修改为自己服务器对应的线程,线程越大,运行越快)#激活vs2环境后使用-j 4个线程运行,输入all 所有结果,-w指定输入结果的文件夹。final-viral-score.tsv —— 表示每条序列的各分类类别得分表格。官方推荐的安装方法是用mamba安装,若没安装有mamba,可参考我这篇博文先安装mamba。final-viral-boundary.tsv —— 表示每条序列的信息表格。

2023-12-21 10:44:40 2078 5

原创 cap3在Linux下的安装

方法2,通过官网下载源代码。

2023-12-20 10:06:13 621

原创 mamba的安装教程

【代码】mamba的安装教程。

2023-12-13 14:12:31 3946

原创 常见的机器学习算法简介

它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。knn一般指邻近算法。

2023-11-14 15:55:08 133

原创 python安装模块出现网速问题的解决办法

当 pip install 模块名 出现报错:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org...如果是linux系统会区分python2还是python3,python3要用pip3。

2023-11-10 14:41:31 199

原创 解决:R语言ggsave保存的图片中的文字不显示

使用下面代码解决if(!

2023-11-02 14:50:33 671

原创 R语言中安装加载包的最便捷方式

这个命令的意思是:需要加载某包,先查找有没有下载过这个包,若不存在这个包,则运行的是直接一步安装并加载这个包,省去了先安装再加载的分步运行;若存在这个包,则运行的是加载这个包。这个命令的优点是:不会重复安装包,若脚本里写的是 install.packages("包名"),则会重复安装。require(包名))install.packages("包名")

2023-11-01 16:19:07 664

原创 16进制颜色码和对应的RGB格式

橄榄土褐色(褐绿色)(浓汤)乳脂,番茄等。

2023-11-01 15:00:21 5959

原创 R语言报错Error in .jcall(“RJavaTools“, “Ljava/lang/Object;“, “invokeMethod“, cl, : java.lang.OutOfMe

Rstudio报错:Error in .jcall("RJavaTools", "Ljava/lang/Object;报错原因:软件内存不足。

2023-10-09 15:52:25 499

原创 RNA-seq(转录组测序生信分析)去除rRNA的方法

S:生成的sam文件,这个可以不写,但若不写,会在终端直接输出很长很多的sam文件,虽然不影响结果,但个人觉得眼花,所以我写了这个参数和指定输出文件名。-un-gz:说明是双端数据,后面接-1和-2和分别对应的数据;若是单端数据,则参数换成--un-conc-gz,后面接-U和其对应的单端数据。-x :是对应的rRNA参考基因组,书写方式是——对应路径到前缀名。首先,在NCBI上下载对应参考基因组的RNA序列,下载链接如下。rRNA.fa是下载的rRNA序列,rRNA是所有索引的前缀名。

2023-09-22 16:30:25 1435 1

原创 测序数据深度怎么求

先将二代测序的下机数据转化为fastq格式,可以然后比对到参考基因组得到sam文件,再将sam文件转化为排序好的bam文件,利用samtools软件就可以求出数据的测序深度。

2023-09-05 10:56:46 758 1

原创 生信各基础名词解释

是特定基因转录的DNA区域,在基因的非编码区,即编码区的上游,转录mRNA的时候与RNA聚合酶结合的位点,告诉RNA聚合酶从启动子开始转录。:mRNA上的3个相邻碱基,共有4的3次方种,即64种,其中决定氨基酸的密码子有61种,决定20种氨基酸(C1/4+2C2/4+C3/4=20氨基酸),另外,UAA、UAG、UGA这三个密码子不能决定任何氨基酸。:终止子也在基因非编码区,即编码区的下游,处于基因或操纵子的末端,是告诉RNA聚合酶转录到此结束的DNA序列。:指的是,基因转录产生的RNA,也称为转录本。

2023-08-18 11:01:39 1805 1

原创 全外显子组测序的bed文件如何制作

后面是对最终的结果进行排序,先按照第一列进行排序(-k1,1)再按照第二列以数值的方式进行排序(-k2,2n)。最后,再用bedtools把可能有重叠的部分整合之后,就能得到我们想要的结果。然后用gtf文件处理。

2023-08-17 16:59:29 873 1

原创 microRNA简介

物种间的差别最主要是由于microRNA表达的异时性变化和较小程度的空间表达差异。miRNA是一类小的调节RNA在细胞增殖,细胞死亡,细胞发育和分化,病毒感染,造血,肿瘤发生等生物过程中发挥重要作用。miRNA的序列结构在各个物种间具有高度的进化保守性,最具有microRNA 保守性的是let-7,它广泛存在于两侧对称的生物体中,其序列保守性令人吃惊。1、miRNA是广泛存在于真核生物中的一组短小的、不编码蛋白质的RNA家族,它们是由19-23个核昔酸组成的单链RNA(3“端可有1~2个碱基长度的变化)。

2023-08-01 13:47:22 795 1

原创 PRS分析在linux上实操

PRSice_BARPLOT_*.png:这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。PRSice.summy文件——这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。--base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc。--dir,默认是当前路径。

2023-08-01 10:56:41 485 1

原创 基础的常用的生信分析方法

PRS(Polygenic risk score)也叫PGS(Polygenic score)是在GWAS基础上发展起来的,PRS(多基因风险评分)是将与某种表型相关联的一组风险SNP的基因型效应加权来计算个体对该种表型(多指患病表型)的倾向的遗传学方法。可以看出GWAS的缺点是忽略了多基因的作用。多基因风险评分主要针对的是多基因遗传疾病,比如二型糖尿病、非酒精性脂肪肝、冠心病、哮喘和一些癌症等,这类疾病的特点是缺乏主效基因(对疾病发生发展有巨大作用的基因)并且可以通过改变环境因素来遏制其发生发展。

2023-07-21 16:50:35 3290 1

原创 基因检测中的PANEL是什么?

人体内的基因有2万多个编码蛋白质的基因,也有虽然不编码蛋白质,但是在人的疾病发生和天赋潜能中发挥重要作用的基因,人的基因的碱基数量高达64亿中,基因PANEL只是选择了部分基因。基因PANEL是一个基因组合,在基因检测中使用基因PANEL所检测的基因比单一的位点要多,比PCR技术检测的序列要长,相对来说,获得的基因信息量要多一些。3个基因是一个PANEL, 5个基因也是一个PANEL,100个基因也是一个PANEL,所以用基因PANEL进行基因检测,要首先看基因PANEL也就是基因组合中基因数量的多少。

2023-07-21 15:00:01 1813 1

原创 机器学习各算法模型简介

输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。随机森林是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法(在集成学习中,主要分为 bagging 算法 和 boosting 算法)。全概率公式的含义是,如果A和A’构成样本空间的一个划分,那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。

2023-07-20 11:54:39 354

原创 GWAS(全基因组关联分析)简介及简单实操

全基因组关联分析(Genome-wide association study),是指在人类全基因组范围内找出存在的序列变异,即单核酸多态性 (SNP) ,从中筛选出与疾病相关的SNPs。#将vcf文件转换成map、ped格式,然后转换为Plink二进制格式(fam,bed,bim)我认为数据分析是从全基因组分析得出的vcf文件开始的,以下分析流程来自。#安装plink和vcftools,我的服务器是ubuntu的。#R语言作图,我这里是将所有R代码写在脚本里。#下载数据,这里用的是狗的数据。

2023-07-11 17:07:44 5110 3

原创 SeuratData报错: No access to remote SeuratData repository, unable to install new datasets的解决方法

错误: No access to remote SeuratData repository, unable to install new datasets。

2023-06-07 15:42:40 552

原创 单细胞测序下游分析的细胞注释数据库的选择

DatabaseImmuneCellExpressionData由来自同名项目的分选细胞群体的bulk RNA-seq样本组成。NovershternHematopoieticData由来自GSE24759的经分类的造血细胞群体的微阵列数据集组成。利用R语言的singleR包进行自动注释,singleR自带的7个参考数据集,其中5个是人类数据,2个是小鼠的数据。MonacoImmuneData来自GSE107011的部分免疫细胞群体的bulk RNA-seq样本。

2023-05-10 11:07:31 2090

原创 NGS测序原理

Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。这两个系列的机器采用的都是边合成边测序的方法,它的测序过程主要分为以下4步。

2023-05-04 17:21:33 1559

原创 生信分析中常见的变异类型

CNV已经在许多疾病的分子诊断和非侵入性产前护理中得到应用,CNV将对包括癌症和心血管疾病在内的几种疾病的筛查、诊断、预后和监测产生巨大影响。InDel:Insertion/Deletion,插入或缺失,在基因组重测序进行mapping时,进行Gap的比对并检测可信的Short InDel ,如基因组上小片段>50bp的插入或缺失,在检测过程,Gap的长度为1—5个碱基。SNP:SNP的影响因素包括单碱基变异、转录区非同义突变、基因组分布不均等。SNV:SNV的产生原因是碱基替换、单碱基插入或碱基缺失等。

2023-05-04 16:32:59 2062

原创 SAM文件解读

在进行该第列值的计算时,如果取第6列的数值,一定要取出现M的值,S或H的值不能取。4)POS 1-Based的比对上的最左边的定位,表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置。

2023-05-04 16:03:05 3367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除