- 博客(29)
- 收藏
- 关注
原创 conda 更换镜像究极方法
conda安装软件一直用的北外镜像,但是我租的服务器机构IP好像最近被屏蔽了,一直无法使用。机构内部搭了本地镜像。在更换本地镜像(修改.condarc文件)后,新建环境可以正常使用本地镜像,但是之前建的环境依旧还在沿用北外镜像,无法安装软件。
2025-03-02 11:39:56
426
原创 Conpair: 配对样本一致性concordance与污染contamination分析
Conpair 于2016年被发表在《Bioinformatics》上,用于分析配对样本(如某个病人的肿瘤样本和正常样本)WGS或WES测序的一致性和交叉个体污染。
2024-11-09 21:29:47
389
原创 HLA分型 | HISAT-genotype
之前的推文《7 种 HLA分型软件比较》中提到,在利用WES数据对HLA分型时,HISAT-genotype准确度较高。但是它的使用教程真的好少,这里我来简单写了个示例。教程:https://daehwankimlab.github.io/hisat-genotype/tutorials/HISAT-genotype与hisat2是同一个作者。HISAT-genotype是一个基因分型的软件,主要使用语言是Python。
2024-10-29 17:32:08
376
原创 Make 学习笔记:转录组流程搭建
在当前工作目录建立Raw_datainputResult文件夹。原始数据将下载在Raw_data下,经过下载/重命名等处理后放于input文件夹中。./├── input├── Result以转录组项目PRJEB37155,人的9个转录组为例。注意:这里PE测序数据后缀名是与input/...
2024-10-29 17:31:01
336
原创 【自用推文】NCBI blast物种注释2
最近公司2个转录组样本mapping 比例在10%,公司的NT数据库比对和结果物种注释脚本稀烂,并不能很好的看出物种比例。于是就有了之前的推文《NCBI blast物种注释》。今天终于有空,将其封为了脚本。本文中各脚本均不公开,仅对脚本过程和特点进行描述,可以结合之前的推文写一下自己的过程。
2024-10-29 17:24:52
480
原创 NCBI blast物种注释
的nr或者nt数据库,在构建数据库时可以添加物种注释信息。如果建库时未添加,也可以后续通过taxonkit进行注释。这里以nt数据库的blast的XML格式结果为例,对注释的词条进行物种注释。
2024-08-30 00:37:47
918
1
原创 【客户福利】获取ASprofile的hdrs文件
ASprofile 是分析可变剪切的软件之一,软件分析需要一个hdrs文件。该软件自带了hg19的hdrs,但是其它版本或者物种的hdrs文件需要自己获取,但软件并未提供该功能脚本。网上找到过一个公开的Python脚本,但是它统计的结果有问题,没办法,自己写了。大家如果也找到了那个脚本,注意验证结果可靠性。本文分享自己写的perl脚本用法。该脚本不公开,有需要的客户付费达到一定金额后可免费获取。如果仅需要其它基因组版本或着其它物种的hdrs文件,可以付费获取相应的hdrs文件。
2024-07-07 20:17:43
301
原创 eval与bash -c 的区别与联系
eval和bash -c都可以用来在 Linux shell 脚本中执行命令字符串,但它们在使用方式和应用场景上有所不同。eval。
2024-07-07 20:15:06
441
原创 【客户福利】本地读取GEO探针表达数据和芯片注释
其实,从报了培训班之后还没做过GEO数据挖掘。大家注意后面代码的可靠性。常用的GEO数据下载和读取依赖,当我们指定选项GEO编号时,其实质还是从要先下载表达矩阵文件和探针注释(getGPL = T)文件到本地,然后再读取。我个人是不太喜欢getGEO这个函数风格的。对于R语言下载文件的可靠性,我觉得不咋滴,也可能是我写不好代码。我个人是封了个脚本,专门用于下载GEO数据库文件,该脚本不公开,仅作为客户福利,当客户付费分析金额达到一定额度后才可免费获取。这个脚本的使用方法之前分享过一次,这里再次分享下。
2024-07-07 20:13:53
832
原创 利用linux中awk从gtf文件中提取外显子的bed文件
0 为第1个碱基,100表示第101个碱基,但是不包含第101个碱基,因此这个写法表示位置1到100。其中,feature起始与结束为左闭右开区间,即表示第1到第100个碱基可以理解为数学上的区间。由于bed文件起始位置要从0开始,与gtf文件不同,所以在打印时起始位点要减去1,即。即为将基因ID,转录本ID和exon number拼接在了一起,以保留更多内容。这里将基因ID ,转录本ID和exon编号做一些处理,在后续。利用awk从gtf文件中提取exon的bed文件。这里时可以直接进行减法运算的。
2024-06-03 00:23:54
510
原创 利用linux中sed给染色体编号加前缀chr
在做生信分析的时候,很多情况下我个人倾向于从ENSEMBL下载基因组,但是这个数据库的染色体编号为数字,而一些f分析软件会要求chr前缀。这里演示下如何进行给gtf文件和基因组添加chr前缀。查看gtf染色体前缀。查看基因组染色体前缀。
2024-06-03 00:15:34
516
原创 28.2 Gb基因组SSR序列知多少:Misa+Primer3流程
前两天帮人下载了28.2Gb的蝾螈基因组,这么大的基因组,还是第一次近距离接触。由于之前我优化了下流程脚本,使之可以耗费较小的服务器资源用于分析核心基因组SSR并设计引物。目前为止,我接过的付费分析中还没有超过3Gb的基因组,因此,萌生了对蝾螈基因组分析SSR并设计引物的想法。就现在网上公开的脚本和修改方法,并不能直接完美将流程应用于核心基因组的分析。如果你有需要分析的,可以直接联系我做付费分析。
2024-06-01 23:46:46
541
原创 UCSC工具:fastqStatsAndSubsample Fastq质量统计与抽样
用途:主要用于统计fastq整体统计和抽样。包含的结果:reads数,碱基数,随机抽样的reads数和碱基数,碱基长度的平均值、标准差(std)、最小值和最大值,碱基质量的平均值、标准差(std)、最小值和最大值,质量类型,atcgn碱基总体所占比例,每个位置碱基的平均质量,每个位置atcgn碱基的比例。绘常规质控图:可绘制每个位置各种碱基比例折线图。缺点:缺少Q10,Q20,Q30和Q40的统计结果。
2024-02-15 09:34:11
536
原创 FPKM转TPM脚本分享:当Shell脚本嵌入R代码
当然,我之前写过一个R脚本模板,可以只依赖基础函数也允许使用长选项设定参数,也可以设定缺省值,详见《等工具来设定选项和缺省值,这些工具在常用系统环境中是默认配置,因此使得脚本更加灵活【下面脚本并未这样写,大家可以自己改写】。输入文件:FPKM表达矩阵,行名为基因,列名为样本名称,值为FPKM。我个人的看法是,还是有一点用处的。当Shell脚本中嵌入R代码,这到底是R脚本,还是shell脚本呢?shell中写R代码的一些细节,了解的还不够详细,需要多写多练。格式,因为是特定情境下的脚本,所以卡的比较严格。
2024-02-15 09:29:45
528
原创 linux解压zip格式的新姿势
周六接到一个小项目,客户把4例样本的clean数据放到一个名为clean.zip的文件中。客户是通过百度网盘给的数据。由于客户比较着急要数据,所以直接使用bypy把clean.zip下载到远程服务器上。查看文件【前提是已经配置好bypy。配置过程自行搜索】下载文件一般来说解压zip格式,可能会直接使用unzip。
2024-01-22 00:54:24
408
原创 无 if else的shell脚本下载公共测序数据
shell脚本,不一定要写if else。可以通过运算符||与&&管理命令, 我的理解是通过命令返回状态来决定运行哪个/块命令。我们最常见的例子是。更加复杂的例子是运算符||和&&配合{}或()写。不要觉得没必要,这可能是你工作以后shell脚本常态。今天以利用Aspera从ENA数据库下载测序数据为例进行简单举例。下面给个稍微简单点的一个示例命令。
2023-12-17 00:21:13
415
原创 跟着Github学Mfuzz
前几天学习Mfuzz时在github搜到一个脚本这是一个2016年的脚本,注意这个时间比较早,因此用到的方法或者软件也比较老,需要注意。这个脚本来还是找来测试数据跑了下。这里记录下这个脚本的特点,以及我测试时的脚本,希望可以对大家脚本封装和Mfuzz学习提供一点点帮助。
2023-12-11 00:49:17
757
原创 【纯代码分享】有技术重复的11样本的10X单细胞上游
数据是来自的项目。一个小鼠心脏损伤的10X genomics 单细胞测序数据。一共27组测序结果,81个fastq文件。
2023-12-08 01:14:55
1144
2
原创 R编程反面教材:1646992行的gff文件处理了6小时
一开始是用R写的代码,写代码10分钟,运行6小时。后来嫌弃太慢,花40分钟写了个perl版本代码,然后4秒钟解决了。行,这里是尝试用R按行处理的数据,还使用了for循环。今天带大家看下我写的反面教材R代码(改进思路见小结部分,有兴趣的可以找一个模式生物验证下自己的思路和代码是否正确。固然是慢,花了6小时,但是同样的处理思路移植到perl语言中,只花了4秒!这也只是我的思路而已,并不是唯一的。当然了,对于科研上的数据处理,这种处理时间要求一般不是很严格的,能解决问题即可。”,对于R语言来说,
2023-10-29 23:57:54
174
原创 R语言动态创建压缩文件
动态创建压缩文件,可以简单地理解为将结果写出到压缩文件,而不是先写出到文件然后压缩。R语言中,R包vroom就可以实现这一过程。逐行写出函数与数据表写出函数,可以通过的方式实现动态创建压缩文件。生物信息中常见的压缩格式为.gz压缩,这里以拟南芥的基因组序列进行测试。
2023-10-10 12:08:36
219
原创 shell脚本 | 批量从GenBank/RefSeq下载NCBI基因组
今天有客户联系要通过GenBank的accession number批量下载基因组,结果回复客户可以批量下载后,客户就没再回复过。。。这个功能之前就想写,只是觉得用的可能不是很多,就没写。既然今天遇到了,恰巧最近着重学shell脚本,就把这个功能封了个shell脚本。用到的shell知识点都还算基础,也是必学的,下面介绍了脚本的特点和功能,感兴趣脚本写法的也可以购买来看看。
2023-10-09 20:54:23
1002
原创 Y叔的enrichplot画图是如何将y轴text文本换行的
我们在使用Y叔的包做过富集分析之后,然后使用enrichplot绘制dotplot与barplot时,y轴的部分可以换行了(从哪一版开始的我不记得)。如下图:那么是如何实现的呢?其实可用两种方法实现这种换行。一种方法是Y叔的函数。另一种方法是哈德利的测试用enrichplot版本string 字符串width 字符最大长度,Y叔在绘制富集结果时是又包装过的str_wrap(),数值写明width = 30。我目前没找到修改Y叔该参数的方法该函数换行处仅为空格。
2023-10-04 21:21:14
346
原创 测序数据sff文件转为fastq数据工具:sff2fastq和sff_extract
记录下两个将测序数据从sff格式转为fastq格式的工具`sff2fastq`和`sff_extract`
2023-10-04 21:13:25
437
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人