回顾
爱笑的小牙
要想持续有输出,就必须源源不断的输入!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
下载cosmic数据库以及转换为annovar可识别的格式
COSMIC作为肿瘤常使用的数据库,和OMIM,HGMD遗传数据库一起,可以进行区分体细胞突变和胚系突变(来源于《高通量测序技术 李金明主编》第五章 数据库里的P146),所以这些数据库的本地化就很重要了。1.下载COSMIC数据库,进入主页,点击data下的download,找到要下载的文件点击下载(直接下载失败,用脚本下载)。2.脚本下载时按照网页上的步骤操作,由于设置密码时不知道后期会有这种要求,就在密码中加入了感叹号!,导致提示!:event not found,这时候把 echo "ema原创 2020-06-28 17:33:16 · 5858 阅读 · 4 评论 -
用python写的一些小应用
1.根据一个表格是基因,一个工作簿里不同的癌种基因信息放在不同的表格中,要查找表1的每个基因在工作簿里的哪些癌种中存在#!/usr/bin/env python# encoding=utf-8# 目的是根据基因在另一个工作簿中各个表格匹配癌种import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.ExcelFile('../allgene.xlsx')keylist=[]val原创 2020-06-17 14:43:26 · 653 阅读 · 0 评论 -
利用数据库进行肿瘤基因的挖掘
查找肿瘤靶药预后风险相关基因位点,在没有找到相关的肿瘤panel的情况下,可以去cBioportal这个数据库去根据肿瘤类型查找频率很高的基因,然后把鼠标放在某个基因上,就会看到图一提示:进入OncoKB Cancer Gene List,看到图二界面 :对于每个基因都进行了分类(癌基因还是易感基因),权威数据库是否收录。不需要注册,基因列表可以下载的,搜索某个基因进入后,就会看到每个基因上位点的变异,证据级别以及药物情况。在cbioportal数据库里也可以查找某个癌症里基因里的位点.原创 2020-06-16 15:20:08 · 2063 阅读 · 1 评论 -
notepad++ 正则表达式的简单应用
1.对于日常需要把如下一列数据转换为'A','B','C','D'的方法为:在正则表达式的循环查找模式下,输入查找目标为([\w\W]+?)\r\n ,替换为 '\1',ABCD2.对于ACE,ADA,BAX,CAPS转换为如下模式,输入查找目标为([\w\W]+?)\,,替换为\1\r\n 。1表示找到的目标ACEADABAXCAPS...原创 2020-03-25 09:29:58 · 310 阅读 · 0 评论 -
下载百度文库的受限文件-冰点下载器
有时候找到一篇不错的文章,却只能看到一点内容,继续往下看,就要下载券,这时候可以用冰点文库下载。1.下载Fish-v323-0512软件,点击Fish.exe,免安装使用,出现如下界面:2.在选框中复制链接,点击下载,就可以看到下载进度条了。3.完成后在kpdf的文件夹下就可看到你要的文章了。...原创 2019-05-17 14:01:04 · 892 阅读 · 0 评论 -
WES流程-系列一
目前分析WES/WGS的软件已经很多了,这次主要写GATK,和samtools mpileup 和bcftools call 流程。1,需要安装的软件trimmomatic,bwa,samtools,gatk bcftools ,vcftools,snpeff,multiqc,qualimap 等2.数据库的下载...原创 2019-04-29 16:08:43 · 1134 阅读 · 0 评论 -
根据引物数据做hotspot和target的bed文件
1.拿到一个已经设计好的引物表的时候,发现格式很乱,所以首先就是按照一定的格式把引物格式做好2. 把panel 按照如下格式进行调整,UniqueID要对应数据库,其中End应为Start加上Ref的碱基个数。3. hotspot 需要参照其他bed文件,自行添加头信息,修改makeTargetAndHotspot.py,运行。#!\usr\bin\python# codi...原创 2019-04-19 16:04:26 · 642 阅读 · 2 评论 -
统计fastq格式的数据质量值
现在对fastq格式的数据进行统计的软件也很多1.FastQC,目前也是用的比较多2.readfq 用来统计各种质量值3.fqcheck 我自己用的比较少 ,它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,Q20,Q30等4.iTools 主要也是统计质量值,功能很多5.FxTools 用于全面分析FASTA和FASTQ文件,涵盖用户从序列修...原创 2019-04-19 15:17:07 · 4564 阅读 · 0 评论 -
RNA-seq分析
最近发现这个网站的博客不合适放很多文件的项目,所以需要结合github一起来记录。第一次做RNA-seq,是完全按照这篇文章(PMID:27560171)进行跑流程的,虽然刚开始做的时候不是很懂,但是做完了整个流程(Hisat2+Stringtie+Ballgown)后,就明白了。下载:Hisat2+Stringtie+BallgownGFF 工具这是17年就做好的分析,所以可能...原创 2019-04-19 14:45:01 · 2702 阅读 · 0 评论 -
用R做GO功能注释和KEGG通路富集分析
KEGG -GO主要是使用R 中clusterProfiler包进行富集分析 以及使用pathview 包进行代谢途径整合和可视化。进行在线分析的:https://pathways.embl.de/1.代码:https://github.com/Cassiel60/R/blob/master/enrichment.r2.安装包:使用代码中的方法要多尝试几次,反正我第一次安装时就是安装...原创 2019-04-19 14:42:08 · 29306 阅读 · 5 评论 -
把clinvar转换为annovar的格式
下载最新的数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh37/annovar是注释用的比较多的软件,clinvar的数据库经常更新,要跟的上更新,就必须自己进行格式转换,也可以把自己的数据库放在annovar注释,比如hgmd,网上有很多优秀的python代码可以实现,可以自己写,也可以参照别人的官方的版本使用perl写的,不过需要安...转载 2019-04-19 14:40:34 · 2313 阅读 · 3 评论 -
yaml做配置文件
YAML是"YAML Ain't a Markup Language"(YAML不是一种置标语言)的递归缩写。可以做多种用途:脚本语言,序列化,配置文件我们常见的是config.yaml做配置文件可以看出,同一个缩进属于同一个级别的,可以理解为和window的文件夹一样,当前面有“-”,就是一个数组。python 在写pipline时,可以配合sys.argv[1]进行一个传参...原创 2019-04-19 12:24:25 · 3721 阅读 · 0 评论 -
HLA分型的摸索史
HLA(human leukocyte antigen ,人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物,该系统是目前所知人体最复杂的多态系统。通过HLA的分型,可以找到疾病的原因,比如免疫系统疾病,超过90%的强直性脊柱炎患者,HLA-B*27抗原表达为阳性,最常见的就是HLA-B*27:04是致病风险亚基。要查看HLA相关的分型的临床表现,可以去SNPedia查看。HLA...原创 2019-04-19 12:04:07 · 2242 阅读 · 0 评论 -
python 提取NCBI上的CDS
# sequence.gb文件https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=genbank#position.txt#生成的文件postion_HLA_seq.fafrom Bio import SeqIOfrom Bio.SeqRecord import SeqRecordfrom B...原创 2019-04-19 12:02:08 · 2755 阅读 · 3 评论 -
R包SangerSeqR处理ab1数据
#加载sangerseqR包library(sangerseqR)#读入数据seq = readsangerseq('input.ab1')#读取碱基数据,0.33指的是将达到主峰0.33的次峰定义为杂合子峰bc = makeBaseCalls(seq, ratio = 0.33)#读主峰primarySeq(seq)#读次峰secondarySeq(seq)#输出...原创 2019-04-19 11:24:18 · 3029 阅读 · 0 评论 -
NIPTeR包分析 NIPT
前段时间一直纠结于,用NIPTeR包分析·NIPT数据时,报错的问题,后面知道是从NCBI下载的数据不适用于这个包,其实写这个包的大神有提供数据,在他的github上的,下载test_samples文件下的数据,进行测试。里面有R的源码,以及每一步运行的数据。一般大神都有github账号,所以通过这种办法可以找到其他包的测试数据,更方便理解包的用途以及使用手法。library(NIPTe...原创 2019-04-28 13:45:56 · 1196 阅读 · 1 评论
分享