ch3uly-优快云博客

原创编程小甜点（持续更新）

emmmm，打算做一个R，python，shell的编程习题合集，每道题都用这三种语言来写，会附有我写的code。给和我一样才入门的小白。欢迎花式补充答案~Project EulerProblem 1：Multiples of 3 and 5If we list all the natural numbers below 10 that are multiples of 3 or 5, we...

2018-11-29 23:53:57 515

原创宏基因组分析流程

1.md5sum+trimmomaticmd5sum SRR1976948_1.fastq.gz SRR1976948_2.fastq.gzjava -jar /data/XXXXX/software/software/Trimmomatic-0.36/trimmomatic-0.36.jar PE \-phred33 SRR1976948_1.fastq.gz SRR1976948_2....

2019-06-28 15:14:17 3439

原创转录组分析处理流程

1.fastqc2.STAR##build_indexSTAR --runThreadN 9 --runMode genomeGenerate \--genomeDir /data/XXXXX/bio/task_LE-miR/03-2miRSeq/index \--genomeFastaFiles /data/XXXXXbio/task_LE-miR/03-2miRSeq/chrom.3...

2019-06-27 20:12:29 3726 1

原创 miR数据分析处理流程

1.rename方便后续处理。2.trim_galore去接头。#这个软件使用之前要先安装fastqc和cutadaptls -d OV*|while read OV; do echo $OV;trim_galore -q 20 --phred33 --paired -a AGATCGGAAGAGCACACGTCT -a2 GATCGTCGGACTGTAGAACTCTGAAC \-e 0...

2019-06-27 10:58:30 1548

原创 WGS数据分析处理流程

1.拿到数据后先检查数据是否完整。用md5sum命令。#生成md5文件ls KPGP*| while read KPGP; do echo $KPGP;md5sum ${KPGP} >> ${KPGP}.md5; done#检查完整性，全部显示OK即可md5sum -c *.md52.对数据进行质检。#质检nohup fastqc -o /data/XXXX/WGS/...

2019-04-30 10:21:47 5127

原创 ROC曲线概略

作用1.查出任意边界值对疾病识别能力2.选择最佳诊断界限值，越靠近左上角，accurary越高3.进行比较，AUC越大，效果越好AUCAUC效果AUC>0.9较高准确性0.7<AUC<0.9有一定准确性AUV<0.5准确性较低（无预测价值）...

2018-11-29 20:22:24 232

原创 TCGA样本编号

TCGA常用的样本编号为：TCGA - 06 - 0681 - 11A - 41R - A36H - 07最为重要的是标黄的两处。第一处为样本类型，前面的数字1-9为肿瘤，10-29为正常或癌旁样本。字母代表质量，A为佳，B次之。第二处为处理样本时的PCR编板号，即为去除batch effect时的batch依据。...

2018-11-29 20:19:48 13140

转载离群值的处理

离群值的产生1.总体固有2.由实验，观测等产生离群值的处理保留，修正，剔除，替补…检验方法的选择1.限定检出个数<=1时：nmethodn<31Grubbs法n>30正态，偏度-峰度检验n>30非正态，Grubbs法2.限定检出个数>1时：nmethodn<31Dixon法n...

2018-11-29 20:11:36 3665

转载关于自由度

我们做统计的时候常会用到自由度，那么怎样才能更好的理解自由度呢。自由度，从定义来看，是在计算某一统计量时，取值不受限制的变量个数。即df = n（样本量） - k（被限制条件/变量个数）。举个简单的栗子。在估算总体均值时，由于样本中的n个数相互独立，从其中任抽一个都不影响其他，故df = n 。而在估算总体方差时，用的是离差平方和，只要n - 1个数的离差平方和确定，方差就确定了。因为均值...

2018-11-29 19:56:27 428

翻译关于p-value

p-value的六大原则1. p值可以指示数据与给定模型的不相容程度我们基于一系列的假设建立的模型为原假设，同时我们还会建设零假设，即指某种我们想要检测的效应不存在，例如两组无差，或者某个因子与结果无关。p值越小，说明数据与零假设之间越不相容，可将p值看作对零假设的存疑程度/假阳性的出现概率。2. p值不能衡量某假设为真的概率，也不能衡量数据仅由随机因素造成的概率尽管研究者常常希望计算出零...

2018-11-29 19:33:11 2049

原创 linux，R，python中常用命令（持续更新）

linuxsshcpmvlscatgrepchmodwhichheadlessfindpstopnohup … &jobsvi …dir()setwd()makecat *.sql > merge.sqlawksedRread.tablelibrarygrepllapplyplottitlematchggplot2pyt...

2018-11-29 19:11:17 306

转载 biomarker研究思路

1.discovery set小样本高通量初次筛选。分析差异表达的分子。2.换方法验证从差异分子中进行筛选，选出top的分子，用实验验证（一般qPCR验证测序结果，ELISA验证蛋白组学质谱结果）。样本选用1里面的discovery set，因为测序数据出现假阳性/阴性较为常见。3.validation set扩大样本验证，并建立ROC曲线，与临床病理参数进行相关性分析来评估效果。4....

2018-11-29 18:44:53 1732

翻译 NGS测序二三事

NGS测序的二三事常见误区一些计算duplication reads常见误区在测序时，我们需要将DNA打断成fragment，构建library。这些fragment需要接上adaptor再扩增。illumina测序分为两种：single end 和 paired end。insertion 不是指R1 和 R2之间的unknown gap，而是adaptor间的序列。而unknown ga...

2018-11-29 18:31:42 3946

weixin_43865392的博客