- 博客(46)
- 收藏
- 关注
原创 以我们都能听懂的语言理解一二三代测序
把《哈利波特》撕成纸条,每张纸条复印100次,最后用电脑拼出完整故事。但遇到重复句子(如“伏地魔回来了”),可能拼错位置。用扫描仪一页页扫《哈利波特》,直接看到完整章节,甚至发现作者用隐形墨水写的隐藏剧情(复杂结构变异)。你有一本《哈利波特》,但只想知道第100页的内容。Sanger测序会精准抄写这一页,但不管其他页。
2025-02-27 11:37:41
270
原创 python制作翻译软件
2.根据s键,进行搜索,查看值是从什么地方生成:根据s键名搜索返回内容过于多、根据堆栈 跟栈调试 XHR断点调试、搜索MD5加密关键代码(MD5指的是长度32位,由0-9 a-f组合起来的值)方法——可以直接复制:开发者工具->网络->点击对应数据包->标头->请求标头 ->cookie/ua/referer..(复制之后在代码中字典形式)对于不同翻译内容,有两个关键点:(1)text:输入需要被翻译的内容(文本内容);2)请求方法:开发者工具->网络->点击对应数据包->标头->常规。
2025-01-07 16:23:16
1429
原创 linux服务器cpu内核及线程数查询及计算
根据上述的“Core(s) per socket”和“Socket(s)”得:总的核心数为 28 核心/插槽 × 2 插槽 = 56 核心。再根据“Thread(s) per core”得总的线程数(逻辑CPU数)为 56 核心 × 2 线程/核心 = 112 线程。
2024-11-19 17:36:30
812
原创 解决R语言包安装报错:~miniconda3/bin/../lib/gcc/x86_64-conda-linux-gnu/7.5.0/specs: No such file or directory
解决了这个问题后又出现了其他报错:~x86_64-conda-linux-gnu/bin/ld: cannot find -lR: No such file or directory。然后查找~x86_64-conda-linux-gnu/bin/lib下的相对应的函式库文件(.so) 的symbolic link 是否正确(即libR.so)这个报错的意思是编译过程找不到对应库文件,-lR表示的是链接库文件libR.so。安装x86_64-conda-linux-gnu-cc。当不存在是,创建软连接。
2024-10-24 15:03:56
626
原创 linux中运行conda命令出现报错:module ‘libmambapy‘ has no attribute ‘QueryFormat‘
解决方法:先删除原有的conda-libmamba-solver,然后重新安装。
2024-10-22 11:19:53
1252
1
原创 cat not import name “tarfile“ from ‘backports’ ,Failed to execute script pyi rth pkgres’due to ...
第二步:我这里报错的原因是由于NumPy 2.0.1版本与一些模块不兼容导致的。第三步:这里报错的原因是:scipy 的版本是1.7.2,与降级后的numpy-1.26.4不兼容,解决方法是对scipy升级版本(截止目前最新的版本是1.14.1。然后重新使用pyinstaller打包,这里发现之前的报错信息没有出现了,说明打包的问题已解决。
2024-08-22 16:12:01
1642
原创 解决Python中使用matplotlib库画图时中文不显示的方法
一般这个库的命令在:“`~/miniconda3/lib/python3.12/site-packages/matplotlib/”,进入此路径,并继续进入此路径下的/mpl-data/fonts/ttf,把下载好的中文字体复制到此路径下。这里建议把这个文件同时复制到matplotlib库下的字体目录,我试验过,没有复制的情况下不会影响输出,但是为了长期使用不会出错,还是建议复制一份到该库的目录里。第一种情况:若运行结果不为空,则直接在脚本里加上这几行即可。最后,再重新验证即可。
2024-08-16 15:52:07
749
原创 python的ggplot库报错:AttributeError: module ‘pandas‘ has no attribute ‘tslib‘
解决方法:打开对应目录下的utils.py编辑,将“pd.tslib.Timestamp”修改为“pd.Timestamp”,如下图。
2024-08-14 10:08:58
254
原创 python:当from docx import Document 报错时:moduleNotFoundError:No module named ‘exceptions‘
之后,from docx import Document 就不会报错了。
2024-08-14 09:34:57
192
1
原创 R语言的cbind和rbind如何区分
m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, b)中矩阵a、b的列数必需相符。,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, b)中矩阵a、b的行数必需相符。在R语言中,我们可以利用函数cbind() 和rbind() 把向量和矩阵拼成一个新的矩阵。cbind(列方式): 把矩阵横向合并成一个大矩阵,根据列进行合并,即。rbind(行方式): 纵向合并,根据行进行合并,就是。
2024-07-24 10:56:12
974
转载 变异位点注释工具比较
如果你需要广泛的注释信息和较少的配置工作,VEP可能是不错的选择。无论你选择哪个工具,这些工具都是生物信息学研究中不可或缺的工具,有助于解释基因组变异的生物学含义。它的主要功能包括确定变异的功能影响、注释突变的影响,例如非同义突变、错义突变和无义突变等,并根据数据库提供的信息进行变异分类。它支持多种基因组版本,可以识别和注释各种类型的变异,如单核苷酸变异、插入/删除、结构变异等。VEP还提供了丰富的注释信息,包括变异的功能、频率、疾病相关性等,可以帮助研究人员更全面地了解变异的生物学意义。
2024-07-10 15:21:51
232
原创 ctDNA深度测序检测
cfDNA含量很低,大部分为1~100ng/mL,90%的健康个体每毫升血液中的cfDNA量不超过25ng,而肿瘤发生和进展时cfDNA量会明显增高,多数研究认为,在肿瘤细胞坏死,凋亡即自分泌过程中均可释放一定量的ctDNA进入血液循环系统。ctDNA来自肿瘤细胞的体细胞突变,因此,ctDNA是一种特征性的肿瘤生物标志物,可被定性、定量和追踪。对于无法获取足够的组织标本的肿瘤患者,例如无法进行活检或手术、穿刺受检者严重不适感、取材时间点受限、很难进行多次取样、肿瘤异质性等情况,更适合做ctDNA业态活检。
2024-06-21 10:47:30
555
原创 Excel中匹配函数的使用
一个表格里有两个子表,sheet1里有A、B两列。而sheet2里只有A列信息、B列是空白的,现在的目的是根据sheet2中的A列信息查找sheet1中A列对应的B列信息,补充sheet2的B列对应的信息。
2024-04-24 15:31:54
143
原创 基因引物序列的查找
勾选show results in a new window,这是结果在新页面展示的意思,最后点击Get Primers。点击进去,在Primer Parameters里将primerbank里检索到的引物序列粘贴上去。引物length一般在15-30bp,常用的为18-27bp,但不应大于38bp。Tm值范围为55-65°C,上下游引物Tm值不宜相差太大,最好不要超过5度。显示字母为不匹配,不匹配的多于5到6个说明引物不太合适。GC%一般为40%-60%,以45-55%为宜。第一步,先在NCBI官网。
2024-04-24 14:53:55
3884
1
原创 在linux服务器安装python模块matplotlib,明明已安装成功,但仍显示无此模块的解决方法
首先是升级pip:然后安装模块:将模块升级到最高版本:然后就可以解决了!!!
2024-04-03 09:27:28
386
1
原创 linux访问华为云OBS的方法
官方文档#打开命令行终端,执行命令下载obsutil工具#在软件包所在目录,执行以下解压命令。#进入obsutil所在目录,执行以下命令,为obsutil增加可执行权限#继续在目录中执行以下命令,如果能顺利返回obsutil版本号,说明安装成功。#使用永久AK、SK进行初始化配置:ak-k=sk-e=endpoint#使用临时AK、SK、SecurityToken进行初始化配置:ak-k=sk-t=token-e=endpoint其中,ak即。
2023-12-28 11:43:53
1480
原创 VirSorter2的安装及使用
virsorter setup -d db -j 4 (这里的4代表用4个线程运行,这里可修改为自己服务器对应的线程,线程越大,运行越快)#激活vs2环境后使用-j 4个线程运行,输入all 所有结果,-w指定输入结果的文件夹。final-viral-score.tsv —— 表示每条序列的各分类类别得分表格。官方推荐的安装方法是用mamba安装,若没安装有mamba,可参考我这篇博文先安装mamba。final-viral-boundary.tsv —— 表示每条序列的信息表格。
2023-12-21 10:44:40
2078
5
原创 常见的机器学习算法简介
它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。knn一般指邻近算法。
2023-11-14 15:55:08
133
原创 python安装模块出现网速问题的解决办法
当 pip install 模块名 出现报错:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org...如果是linux系统会区分python2还是python3,python3要用pip3。
2023-11-10 14:41:31
199
原创 R语言中安装加载包的最便捷方式
这个命令的意思是:需要加载某包,先查找有没有下载过这个包,若不存在这个包,则运行的是直接一步安装并加载这个包,省去了先安装再加载的分步运行;若存在这个包,则运行的是加载这个包。这个命令的优点是:不会重复安装包,若脚本里写的是 install.packages("包名"),则会重复安装。require(包名))install.packages("包名")
2023-11-01 16:19:07
664
原创 R语言报错Error in .jcall(“RJavaTools“, “Ljava/lang/Object;“, “invokeMethod“, cl, : java.lang.OutOfMe
Rstudio报错:Error in .jcall("RJavaTools", "Ljava/lang/Object;报错原因:软件内存不足。
2023-10-09 15:52:25
499
原创 RNA-seq(转录组测序生信分析)去除rRNA的方法
S:生成的sam文件,这个可以不写,但若不写,会在终端直接输出很长很多的sam文件,虽然不影响结果,但个人觉得眼花,所以我写了这个参数和指定输出文件名。-un-gz:说明是双端数据,后面接-1和-2和分别对应的数据;若是单端数据,则参数换成--un-conc-gz,后面接-U和其对应的单端数据。-x :是对应的rRNA参考基因组,书写方式是——对应路径到前缀名。首先,在NCBI上下载对应参考基因组的RNA序列,下载链接如下。rRNA.fa是下载的rRNA序列,rRNA是所有索引的前缀名。
2023-09-22 16:30:25
1435
1
原创 测序数据深度怎么求
先将二代测序的下机数据转化为fastq格式,可以然后比对到参考基因组得到sam文件,再将sam文件转化为排序好的bam文件,利用samtools软件就可以求出数据的测序深度。
2023-09-05 10:56:46
758
1
原创 生信各基础名词解释
是特定基因转录的DNA区域,在基因的非编码区,即编码区的上游,转录mRNA的时候与RNA聚合酶结合的位点,告诉RNA聚合酶从启动子开始转录。:mRNA上的3个相邻碱基,共有4的3次方种,即64种,其中决定氨基酸的密码子有61种,决定20种氨基酸(C1/4+2C2/4+C3/4=20氨基酸),另外,UAA、UAG、UGA这三个密码子不能决定任何氨基酸。:终止子也在基因非编码区,即编码区的下游,处于基因或操纵子的末端,是告诉RNA聚合酶转录到此结束的DNA序列。:指的是,基因转录产生的RNA,也称为转录本。
2023-08-18 11:01:39
1805
1
原创 全外显子组测序的bed文件如何制作
后面是对最终的结果进行排序,先按照第一列进行排序(-k1,1)再按照第二列以数值的方式进行排序(-k2,2n)。最后,再用bedtools把可能有重叠的部分整合之后,就能得到我们想要的结果。然后用gtf文件处理。
2023-08-17 16:59:29
873
1
原创 microRNA简介
物种间的差别最主要是由于microRNA表达的异时性变化和较小程度的空间表达差异。miRNA是一类小的调节RNA在细胞增殖,细胞死亡,细胞发育和分化,病毒感染,造血,肿瘤发生等生物过程中发挥重要作用。miRNA的序列结构在各个物种间具有高度的进化保守性,最具有microRNA 保守性的是let-7,它广泛存在于两侧对称的生物体中,其序列保守性令人吃惊。1、miRNA是广泛存在于真核生物中的一组短小的、不编码蛋白质的RNA家族,它们是由19-23个核昔酸组成的单链RNA(3“端可有1~2个碱基长度的变化)。
2023-08-01 13:47:22
795
1
原创 PRS分析在linux上实操
PRSice_BARPLOT_*.png:这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。PRSice.summy文件——这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。--base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc。--dir,默认是当前路径。
2023-08-01 10:56:41
485
1
原创 基础的常用的生信分析方法
PRS(Polygenic risk score)也叫PGS(Polygenic score)是在GWAS基础上发展起来的,PRS(多基因风险评分)是将与某种表型相关联的一组风险SNP的基因型效应加权来计算个体对该种表型(多指患病表型)的倾向的遗传学方法。可以看出GWAS的缺点是忽略了多基因的作用。多基因风险评分主要针对的是多基因遗传疾病,比如二型糖尿病、非酒精性脂肪肝、冠心病、哮喘和一些癌症等,这类疾病的特点是缺乏主效基因(对疾病发生发展有巨大作用的基因)并且可以通过改变环境因素来遏制其发生发展。
2023-07-21 16:50:35
3290
1
原创 基因检测中的PANEL是什么?
人体内的基因有2万多个编码蛋白质的基因,也有虽然不编码蛋白质,但是在人的疾病发生和天赋潜能中发挥重要作用的基因,人的基因的碱基数量高达64亿中,基因PANEL只是选择了部分基因。基因PANEL是一个基因组合,在基因检测中使用基因PANEL所检测的基因比单一的位点要多,比PCR技术检测的序列要长,相对来说,获得的基因信息量要多一些。3个基因是一个PANEL, 5个基因也是一个PANEL,100个基因也是一个PANEL,所以用基因PANEL进行基因检测,要首先看基因PANEL也就是基因组合中基因数量的多少。
2023-07-21 15:00:01
1813
1
原创 机器学习各算法模型简介
输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。随机森林是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法(在集成学习中,主要分为 bagging 算法 和 boosting 算法)。全概率公式的含义是,如果A和A’构成样本空间的一个划分,那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。
2023-07-20 11:54:39
354
原创 GWAS(全基因组关联分析)简介及简单实操
全基因组关联分析(Genome-wide association study),是指在人类全基因组范围内找出存在的序列变异,即单核酸多态性 (SNP) ,从中筛选出与疾病相关的SNPs。#将vcf文件转换成map、ped格式,然后转换为Plink二进制格式(fam,bed,bim)我认为数据分析是从全基因组分析得出的vcf文件开始的,以下分析流程来自。#安装plink和vcftools,我的服务器是ubuntu的。#R语言作图,我这里是将所有R代码写在脚本里。#下载数据,这里用的是狗的数据。
2023-07-11 17:07:44
5110
3
原创 SeuratData报错: No access to remote SeuratData repository, unable to install new datasets的解决方法
错误: No access to remote SeuratData repository, unable to install new datasets。
2023-06-07 15:42:40
552
原创 单细胞测序下游分析的细胞注释数据库的选择
DatabaseImmuneCellExpressionData由来自同名项目的分选细胞群体的bulk RNA-seq样本组成。NovershternHematopoieticData由来自GSE24759的经分类的造血细胞群体的微阵列数据集组成。利用R语言的singleR包进行自动注释,singleR自带的7个参考数据集,其中5个是人类数据,2个是小鼠的数据。MonacoImmuneData来自GSE107011的部分免疫细胞群体的bulk RNA-seq样本。
2023-05-10 11:07:31
2090
原创 NGS测序原理
Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。这两个系列的机器采用的都是边合成边测序的方法,它的测序过程主要分为以下4步。
2023-05-04 17:21:33
1559
原创 生信分析中常见的变异类型
CNV已经在许多疾病的分子诊断和非侵入性产前护理中得到应用,CNV将对包括癌症和心血管疾病在内的几种疾病的筛查、诊断、预后和监测产生巨大影响。InDel:Insertion/Deletion,插入或缺失,在基因组重测序进行mapping时,进行Gap的比对并检测可信的Short InDel ,如基因组上小片段>50bp的插入或缺失,在检测过程,Gap的长度为1—5个碱基。SNP:SNP的影响因素包括单碱基变异、转录区非同义突变、基因组分布不均等。SNV:SNV的产生原因是碱基替换、单碱基插入或碱基缺失等。
2023-05-04 16:32:59
2062
原创 SAM文件解读
在进行该第列值的计算时,如果取第6列的数值,一定要取出现M的值,S或H的值不能取。4)POS 1-Based的比对上的最左边的定位,表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置。
2023-05-04 16:03:05
3367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人