- 博客(29)
- 收藏
- 关注
原创 RNA-Seq HISAT+ HTSeq + DESeq2流程 及测序深度和质控问题讨论
数据基于BGISEQ500 SE50 clean data约1.XG,20+M reads。SE50 20M是否够?对基因定量足够。理由:1,测序饱和度(随reads数增加,检测到的基因数随之上升。但当测序量达到一定区间后,基因数变化不明显)。 2,如果要检测isoform等信息,需要PE150或PE100(6G数据),但仅仅定量SE50 20M已经够了。1,FastQC质控FastQC -t 2 XX.fq.gz’per base sequence content’几乎每个样本前15碱基
2020-06-09 11:13:31
2146
原创 决策树学习
基于iris data画决策树的决策面For each pair of iris features, the decision tree learns decision boundaries made of combinations of simple thresholding rules inferred from the training samples. 选取一对特征,决策树会得到一系列...
2019-07-11 20:20:45
297
原创 sklearn logistic regression学习
1. linear regressionlinear_model.LinearRegression()print(__doc__)# Code source: Jaques Grobler# License: BSD 3 clauseimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import d...
2019-07-04 14:51:33
1008
原创 mysql action
task10mysql> create table if not exists Trips ( -> Id int not null primary key, -> Client_Id int not null, -> Driver_Id int not null, -> City_Id int not null, ->...
2019-05-21 22:32:04
505
原创 MySQL实战
task7mysql> create table if not exists Employee ( -> Id int not null primary key, -> Name VARCHAR(50) not null, -> Salary int not null, -> DepartmentId int not null ...
2019-05-18 22:23:42
413
原创 MySQL表操作+表联结
task3:超过5名学生的课创建如下所示的courses 表 ,有: student (学生) 和 class (课程)。编写一个 SQL 查询,列出所有超过或等于5名学生的课。应该输出:±--------+ | class | ±--------+ | Math | ±--------+Note:学生在每个课中不应被重复计算。mysql> use yiibaid...
2019-05-16 19:32:03
205
原创 mysql入门(安装+查询语句)
mysql安装在centos7下有root权限安装,主要参考这里.wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum updateyum install mysql-server#设置权限cho...
2019-05-12 21:34:24
360
转载 RVAS(rare variant association study)知识
多基因罕见疾病常用到RVAS(rare variant association study),这里对学习的内容做一个整理。不断补充。RVAS是个什么鬼?居然将替代GWAS摘自周在威老师的微信公众号 基因检测与解读1,GWAS方法通过基因芯片技术系统地评估常见遗传变异(通常是SNP,在人群中的频率MAF大于5%)对疾病的影响,到目前为止,已经有2000多个SNP发现与疾病相关。2,只能...
2019-04-19 11:14:01
1710
原创 临床测序(WES, WGS)分析流程(二)新发突变
task1 从trios找新发突变该例子基于trio.vcf,含有3个样本(mom, dad, son)。java -Xmx5g -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta -T SelectVariants -V trio.vcf -sn son -env -o son.vcfjava -Xmx5g -jar GenomeAnalysis...
2018-10-10 16:38:09
4623
5
原创 临床测序(WES, WGS)分析流程(一)基本流程+过滤
从指控->比对->BAM处理->call突变->合并gvcf都可参考我之前的GATK Germline Best Practivce假设目前得到VCF test1.vcf(包含4个样本,其中一个为CJ-258)Task1 提取CJ-258特有的突变 :java -Xmx15g -jar GenomeAnalysisTK.jar -R ucsc.hg19.fasta ...
2018-09-27 20:58:45
8925
翻译 PLINK/SEQ association test
PLINK/seq可以检测表型-表型之间的相关性,用permutation或者asymptotic statistics。可以基于单变异,基因,也可以基于gene sets。single variant association检测一个变异和疾病(dichotomous outcome)的相关性:pseq proj v-assoc --phenotype my.phenotype当对于...
2018-09-21 12:09:55
1813
原创 PCA原理 statQuest
PCA concepts:PCA把所有细胞间(如果用基因表达来展示)的correlations在2-D图里表示。 PC1的差别远比PC2(PC3,PC4…)要大。 在这个例子中,倘若兰红距离和黄红距离一样,那么黄红之间的差别要比兰黄之间的差别大的多。PCA是dimension reduction中的一种,包括heatmap, t-SNE, Multi-Dimensional Sca...
2018-09-15 22:09:38
1434
原创 LDA原理 statQuest
在某些例子中,比如一个药物对哪些病人有效,哪些无效,我们可以尝试依据病人的基因表达来区分。我们可以选取一个或多个基因,但目的是要选取那些可以最大化提升区分这两组病人能力的基因。和PCA类似,但是PCA目的是提取variation最大的基因。LDA is like PCA, but it focuses on maxmizing seperatibility among known catego...
2018-09-13 16:20:45
330
原创 Pandas基本操作
Pandas基本操作import pandas as pdimport numpy as npSeries类似一位数组的用法>>> a=pd.Series(['a',1,'e',2,np.nan,66])>>> a0 a1 12 e3 24 NaN5 66dtype: obj...
2018-08-16 17:16:01
237
翻译 PLINKSEQ教程1
PLINK/SEQ教程1学习PLINK/SEQ,基于一个toy VCF dataset。使用帮助:pseq helppseq help stats #pseq help {command}PSEQ 使用:pseq input-source command {--argument} #input-source指定VCF文件或者一个PLINK/Seq proje...
2018-08-13 16:37:04
1097
原创 ChIP-seq流程(MACS2 histone peaks)
ChIP-seq(流程)1,质量控制基于FastQC和Trimmomatic:fastqc -t 5 input.fastq.gzjava -jar ~/tools/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar SE -threads 12 -phred33 -trimlog BSY-trim.log ENCFF000BS...
2018-08-08 14:24:12
4140
原创 python3 numpy学习
1.1,numpy & pandas有什么用?教程链接 numpy基于C,pandas基于numpy。基于矩阵的运算,运算速度比python自带list或者dictionary的更快。1.2,安装 pip3 install numpy #3指向python3 pip3 install pandas2.1, numpy属性>>> arr...
2018-08-03 07:06:04
1326
翻译 linux重定向
在Linux里,任何东西都是一个文件。 eg. ls 是把结果输出到一个特殊的文件称为standard output (stdout),错误结果到standard error (stderr)。标准输入和标准错误都链接到屏幕,不保存到磁盘。 > 保存输出结果到文件。 若输出结果不存在,则> 导出空文件。 程序不把它 的错误信息输送到标准输出。 而,像许多写得不错...
2018-07-27 07:57:02
231
原创 ln 创建连接
ln有硬链接和符号链接。ln file link #硬链接ln -s item link #软链接,item可以是文件也可以是目录。1,硬链接 hard links 每个文件都有一个硬链接,这个硬链接给文件起名字。当我们创建一个硬链接以后, 就为文件创建了一个额外的目录条目。 局限性: 1,不能关联文件系统之外的文件。 2,不能关联目录。...
2018-07-25 07:35:50
329
原创 linux命令 For循环
要设定特定的循环列表,可以由文件导入,也可以由{} 导入。 比如要统计每个BAM文件里的reads数目,用for 循环可以如下:for i in H3K4me1_{0,1,4,12}hour.bam;do echo $i; samtools view -c $i ;done对从文件中提取:for i in ${cat file.txt};do echo $i;done对等...
2018-07-24 20:32:27
33878
翻译 VCFtools学习
下载VCFtools用来处理VCF文档。可以1,筛选特定突变 2,比较文件 3,总结突变 4,转化文件格式 5,验证并合并文件 6,取突变交集和差集Get basic file statisticsinput可以为VCF或BCF格式(--vcf --gvcf or --bcf)。vcftools --vcf cohort.intersect.vcforzcat...
2018-06-18 14:47:58
9689
1
翻译 WDL学习
最近想把GATK流程化,方便后续工作。看到WDL+Cromwell的方法还是比较方便的。而且后续GATK出来的best practice也是按照WDL写的。就相当于是学习了。这里记录3个用的可能比较多的例子,具体的可见官网。case2. 编写一个多步骤(multi-step)流程例子数据下载 这个任务是要分开从haplotypeCaller得到的SNP和indel。...
2018-04-13 09:39:35
3117
原创 使用WDL执行GATK HaplotypeCaller教程
Introduction这里的workflow叫做helloHaplotypeCaller;包含一个单任务即是GATK’s HaplotypeCaller。这个task输入一个file inputBAM,输入一个file rawVCF。Workflow 在workflow里,我们会执行task并指定task的执行顺序。 workflow helloHaplotypeCaller ...
2018-03-22 10:33:46
2807
原创 GATK Cromwell +WDL学习
WDL (一个workflow description language)+ Cromwell(an execution engine that can run WDL scripts)是目前可以更好使用GATK的一套工具。这里学习wdl的快速入门教程。WDLBase structureTop-level components: workflow, task and call ...
2018-03-20 19:56:26
5134
原创 RNA-seq分析(Fastqc+Trimmomatic+STAR+HTseq-count+DESeq2)
最近做RNA-seq,正好把流程整理下,也希望分享和相互学习。 具体将以Fastqc + Trimmomatic + STAR + HTseq-count + DEseq2的流程来进行。预处理FastQC + Trimmomaticfastqc -t 5 sample_R1.fq.gzfastqc -t 5 sample_R2.fq.gzjava -jar ~/
2018-01-22 19:57:12
13558
2
原创 GATK Germline Best Practice学习
数据是sporadic的慢病case-control的组合。想用GATK germline best practice的方法进行突变的分析。这里主要参考GATK Germline best practice的教程。1 这里用的是GATK3.7的版本,目前已经出到GATK3.8。最近4.0也发布了。 部分步骤后续补完。。。...
2018-01-20 21:01:41
8252
原创 R作图 图形设备不支持 tiff
在用R做venn diagram的时候,报错不支持tiff...具体报错忘记了。想重装tiff包,未果,报错"had non-zero exit status".发现jpeg,png,titt等作图格式都不支持。> capabilities() jpeg png tiff tcltk X11 aqua http/ftp socke
2016-03-29 22:32:14
2358
转载 CentOS常用查看系统命令
CentOS常用到的查看系统命令CentOS常用到的查看系统命令# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv
2016-01-20 17:49:18
407
原创 Centos下:/usr/bin/ld: cannot find -lXext
最近刚开始用centos,各种操作都在逐步摸索。在安装ghostscript的时候,报错:/usr/bin/ld: cannot find -lXext首先库命名方式为:lib+XXX+.so , 其中XXX表示函式库的名称。根据网上许多类似问题的总结,基本为3步:1,系统中是否有对应的lib。 2,lib版本是否正确 3,是否连接到正确的函式库文件(.so)在我这个问题中
2016-01-19 09:34:37
2186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人