学生信的大叔-优快云博客

原创 ChIPseeker的绘图函数修改与示例

每次看Y叔的R包总能学到很多东西。修改函数，将和绘图内容修改为均基于尽量少地修改原函数，因此实际绘图的时候还是分别添加了一些内容。原函数是基于graphics::pie进行绘制的。添加选项fill来设置填充的对象，Feature跟原来一致，Label则在legend中添加了百分比展示。实现了对多样本应用，但是可能不够好看。对于多样本的和不可使用。修改相关绘图脚本放在最后。

2025-11-19 10:48:02 196

原创 linux下载GSA测序数据库元数据EXCEL表

本文示例仅演示如何从公开页面下载公开数据（例如公开数据库的元数据表格），。作者不对任何违反网站使用条款或法律的行为负责。本教程若有侵权，请微信后台或者邮箱联系作者删除。邮箱：zhengshimao007@163.com。

2025-10-29 16:32:07 623

将未知序列通过blastn比对到本地nt数据库，然后对比对结果进行物种注释是一个常见需求。之前的推文有简单介绍。《NCBI blast物种注释》《【自用推文】NCBI blast物种注释2》注释过程最好时间和计算资源的是将accession注释出物种编号taxid。目前我流程中的做法是R读取，然后从中根据accession索引出对应结果。这个过程对10000条左右数据注释，大概耗时11min，占用90G内存。目前使用的内存资源过于夸张，耗时相对较长，很考验机器的读写速度。

2025-09-16 17:13:53 386

原创【Python自动化】Ubuntu24.04配置Selenium并测试

生信工作者学习Selenium自动化也是十分必要的。今天跟AI聊了几个小时，终于给我写了个科研通的自动登录签到的Python脚本。中途AI提示我可以用requests写，大家可以试下。借助AI写自动化的一个小技巧，对于不熟悉或者我这种不懂网页源码的，可以把网页源码界面发给AI，让它给你识别其中的元素名称。以下内容为我是我在个人阿里云上部署和测试Selenium的步骤。

2025-09-14 00:23:02 513

原创 Python脚本从gtf文件提取转录本长度

根据最近需求写的一个Python脚本。作为python初学者，脚本可能有误。请查证后使用。

2025-03-02 11:43:03 468

原创 conda 更换镜像究极方法

conda安装软件一直用的北外镜像，但是我租的服务器机构IP好像最近被屏蔽了，一直无法使用。机构内部搭了本地镜像。在更换本地镜像（修改.condarc文件）后，新建环境可以正常使用本地镜像，但是之前建的环境依旧还在沿用北外镜像，无法安装软件。

2025-03-02 11:39:56 661

原创 Conpair: 配对样本一致性concordance与污染contamination分析

Conpair 于2016年被发表在《Bioinformatics》上，用于分析配对样本（如某个病人的肿瘤样本和正常样本）WGS或WES测序的一致性和交叉个体污染。

2024-11-09 21:29:47 503

原创 HLA分型 | HISAT-genotype

之前的推文《7 种 HLA分型软件比较》中提到，在利用WES数据对HLA分型时，HISAT-genotype准确度较高。但是它的使用教程真的好少，这里我来简单写了个示例。教程：https://daehwankimlab.github.io/hisat-genotype/tutorials/HISAT-genotype与hisat2是同一个作者。HISAT-genotype是一个基因分型的软件，主要使用语言是Python。

2024-10-29 17:32:08 688

原创 Make 学习笔记：转录组流程搭建

在当前工作目录建立Raw_datainputResult文件夹。原始数据将下载在Raw_data下，经过下载/重命名等处理后放于input文件夹中。./├── input├── Result以转录组项目PRJEB37155，人的9个转录组为例。注意：这里PE测序数据后缀名是与input/...

2024-10-29 17:31:01 442

原创【自用推文】NCBI blast物种注释2

最近公司2个转录组样本mapping 比例在10%，公司的NT数据库比对和结果物种注释脚本稀烂，并不能很好的看出物种比例。于是就有了之前的推文《NCBI blast物种注释》。今天终于有空，将其封为了脚本。本文中各脚本均不公开，仅对脚本过程和特点进行描述，可以结合之前的推文写一下自己的过程。

2024-10-29 17:24:52 694

原创 NCBI blast物种注释

的nr或者nt数据库，在构建数据库时可以添加物种注释信息。如果建库时未添加，也可以后续通过taxonkit进行注释。这里以nt数据库的blast的XML格式结果为例，对注释的词条进行物种注释。

2024-08-30 00:37:47 1400 1

原创【客户福利】获取ASprofile的hdrs文件

ASprofile 是分析可变剪切的软件之一，软件分析需要一个hdrs文件。该软件自带了hg19的hdrs，但是其它版本或者物种的hdrs文件需要自己获取,但软件并未提供该功能脚本。网上找到过一个公开的Python脚本，但是它统计的结果有问题，没办法，自己写了。大家如果也找到了那个脚本，注意验证结果可靠性。本文分享自己写的perl脚本用法。该脚本不公开，有需要的客户付费达到一定金额后可免费获取。如果仅需要其它基因组版本或着其它物种的hdrs文件，可以付费获取相应的hdrs文件。

2024-07-07 20:17:43 384

原创 eval与bash -c 的区别与联系

eval和bash -c都可以用来在 Linux shell 脚本中执行命令字符串，但它们在使用方式和应用场景上有所不同。eval。

2024-07-07 20:15:06 570

原创【客户福利】本地读取GEO探针表达数据和芯片注释

其实，从报了培训班之后还没做过GEO数据挖掘。大家注意后面代码的可靠性。常用的GEO数据下载和读取依赖，当我们指定选项GEO编号时，其实质还是从要先下载表达矩阵文件和探针注释（getGPL = T）文件到本地，然后再读取。我个人是不太喜欢getGEO这个函数风格的。对于R语言下载文件的可靠性，我觉得不咋滴，也可能是我写不好代码。我个人是封了个脚本，专门用于下载GEO数据库文件，该脚本不公开，仅作为客户福利，当客户付费分析金额达到一定额度后才可免费获取。这个脚本的使用方法之前分享过一次，这里再次分享下。

2024-07-07 20:13:53 1316

原创利用linux中awk从gtf文件中提取外显子的bed文件

0 为第1个碱基，100表示第101个碱基，但是不包含第101个碱基，因此这个写法表示位置1到100。其中，feature起始与结束为左闭右开区间，即表示第1到第100个碱基可以理解为数学上的区间。由于bed文件起始位置要从0开始，与gtf文件不同，所以在打印时起始位点要减去1，即。即为将基因ID，转录本ID和exon number拼接在了一起，以保留更多内容。这里将基因ID ，转录本ID和exon编号做一些处理，在后续。利用awk从gtf文件中提取exon的bed文件。这里时可以直接进行减法运算的。

2024-06-03 00:23:54 706

原创利用linux中sed给染色体编号加前缀chr

在做生信分析的时候，很多情况下我个人倾向于从ENSEMBL下载基因组，但是这个数据库的染色体编号为数字，而一些f分析软件会要求chr前缀。这里演示下如何进行给gtf文件和基因组添加chr前缀。查看gtf染色体前缀。查看基因组染色体前缀。

2024-06-03 00:15:34 724

原创 28.2 Gb基因组SSR序列知多少：Misa+Primer3流程

前两天帮人下载了28.2Gb的蝾螈基因组，这么大的基因组，还是第一次近距离接触。由于之前我优化了下流程脚本，使之可以耗费较小的服务器资源用于分析核心基因组SSR并设计引物。目前为止，我接过的付费分析中还没有超过3Gb的基因组，因此，萌生了对蝾螈基因组分析SSR并设计引物的想法。就现在网上公开的脚本和修改方法，并不能直接完美将流程应用于核心基因组的分析。如果你有需要分析的，可以直接联系我做付费分析。

2024-06-01 23:46:46 644

原创 UCSC工具：fastqStatsAndSubsample Fastq质量统计与抽样

用途：主要用于统计fastq整体统计和抽样。包含的结果：reads数，碱基数，随机抽样的reads数和碱基数，碱基长度的平均值、标准差(std)、最小值和最大值，碱基质量的平均值、标准差(std)、最小值和最大值，质量类型，atcgn碱基总体所占比例，每个位置碱基的平均质量，每个位置atcgn碱基的比例。绘常规质控图：可绘制每个位置各种碱基比例折线图。缺点：缺少Q10,Q20,Q30和Q40的统计结果。

2024-02-15 09:34:11 634

原创 linux 图像格式转换： pdf转png格式

试了下R将pdf矢量图转换为png位图，不如linux下convert方便好用。

2024-02-15 09:30:59 994

原创 FPKM转TPM脚本分享：当Shell脚本嵌入R代码

当然，我之前写过一个R脚本模板，可以只依赖基础函数也允许使用长选项设定参数，也可以设定缺省值，详见《等工具来设定选项和缺省值，这些工具在常用系统环境中是默认配置，因此使得脚本更加灵活【下面脚本并未这样写，大家可以自己改写】。输入文件：FPKM表达矩阵，行名为基因，列名为样本名称，值为FPKM。我个人的看法是，还是有一点用处的。当Shell脚本中嵌入R代码，这到底是R脚本，还是shell脚本呢？shell中写R代码的一些细节，了解的还不够详细，需要多写多练。格式，因为是特定情境下的脚本，所以卡的比较严格。

2024-02-15 09:29:45 690

学生信的大叔的博客

原创 ChIPseeker的绘图函数修改与示例

原创 linux下载GSA测序数据库元数据EXCEL表

原创极速对blast结果进行物种注释

原创【Python自动化】Ubuntu24.04配置Selenium并测试

原创 Python脚本从gtf文件提取转录本长度

原创 conda 更换镜像究极方法

原创 Conpair: 配对样本一致性concordance与污染contamination分析

原创 HLA分型 | HISAT-genotype

原创 Make 学习笔记：转录组流程搭建

原创【自用推文】NCBI blast物种注释2

原创 NCBI blast物种注释

原创【客户福利】获取ASprofile的hdrs文件

原创 eval与bash -c 的区别与联系

原创【客户福利】本地读取GEO探针表达数据和芯片注释

原创利用linux中awk从gtf文件中提取外显子的bed文件

原创利用linux中sed给染色体编号加前缀chr

原创 28.2 Gb基因组SSR序列知多少：Misa+Primer3流程

原创 UCSC工具：fastqStatsAndSubsample Fastq质量统计与抽样

原创 linux 图像格式转换： pdf转png格式

原创 FPKM转TPM脚本分享：当Shell脚本嵌入R代码

原创 linux解压zip格式的新姿势

原创无 if else的shell脚本下载公共测序数据

原创提取基因上游1500bp序列

原创跟着Github学Mfuzz

原创【纯代码分享】有技术重复的11样本的10X单细胞上游

原创 Mfuzz::mfuzz.plot2 绘图过程梳理

原创 R编程反面教材：1646992行的gff文件处理了6小时

原创 R语言动态创建压缩文件

原创 shell脚本 | 批量从GenBank/RefSeq下载NCBI基因组

原创【R语言封装技巧】ggplot2的aes()中的变量替换

原创【纯代码分享】Salmon基于GRCh38的转录本与基因水平的定量

原创 Y叔的enrichplot画图是如何将y轴text文本换行的

原创测序数据sff文件转为fastq数据工具：sff2fastq和sff_extract

空空如也

空空如也