
生物信息
文章平均质量分 63
likelet
这个作者很懒,什么都没留下…
展开
-
Blast本地化:window平台下blast软件的安装
1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/blast-2.2.18-ia32-win32.exe2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,转载 2012-02-09 14:07:17 · 17409 阅读 · 0 评论 -
关于illumina产生的测序源文件bcl转换成fastq格式的问题
由于连接测序仪的服务器不知道哪里抽了风,无法直接的生成fastq格式的文件,好久都无解,经过一段时间仍无法解决,所以采用曲线救国的方法,看能不能利用三方软件将bcl转换成fastq文件 google以后发现illumina的OLB(off-line Basecaller)软件可以实现从bcl格式转换成qseq格式,而qseq格式就可以通过简单的perl或者shell或者java脚本转换成原创 2013-03-12 10:41:12 · 11878 阅读 · 2 评论 -
ENCODE30篇论文全摘要 聚焦人基因组功能研究
转http://yixf.name/2012/12/06/%E8%BD%ACencode30%E7%AF%87%E8%AE%BA%E6%96%87%E5%85%A8%E6%91%98%E8%A6%81-%E8%81%9A%E7%84%A6%E4%BA%BA%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%8A%9F%E8%83%BD%E7%A0%94%E7%A9%B6/作者:Z转载 2012-12-13 23:29:31 · 2411 阅读 · 1 评论 -
NCBI RefSeq命名格式的详细说明
转自:http://liucheng.name/379/ NCBIRefSeq (美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。转载 2012-10-30 11:51:30 · 6787 阅读 · 0 评论 -
差异表达分析软件GFOLD安装以及GSL安装问题
同济GFOLD软件是一款根据mapping结果直接进行差异表达分析的软件,http://www.tongji.edu.cn/~zhanglab/GFOLD/index.html,文献中提到,该软件在分析无重复的转录组数据的时候,不以p值为计算依据,而是以GFOLD值作为标准筛选差异表达基因,命令也比较简单。国产软件还是支持一下。结果要优于其他DESeq、edgeR、cuffldiff等软件,故原创 2012-10-10 17:59:46 · 7906 阅读 · 1 评论 -
DESeq分析基因的差异表达以及安装中出现的问题
DESeq采用NB(负二项分布检验的方式)对reads数进行差异显著性检验,同时还增加了矫正由于长度引起的误差,估算基因表达量的方式采用basemean值来估算表达量(标准化以后)这里,我在R下安装DESeq包出现了一些问题帮助总结一下。首先,我的R是15.0版本打开R source("http://bioconductor.org/biocLite.R") biocLite(原创 2012-09-14 11:09:50 · 19024 阅读 · 1 评论 -
xml文本处理
XML文档 1、 什么是格式正规的XML文档:所以遵守规定的XML基本语法规则的文档(数据)都称为格式正规的XML文档。这类数据在使用时可以不使用DTD或模式来描述它们的结构,它们也称做独立的(或非DTD)XML数据,这些数据不能够依靠外部的声明,属性值只能是没有经过特殊处理的值或默认值。2、 一个格式正规的XML数据包含一个或多个元素,它们相互之间正确地嵌套,其中有一个元素,即文档元转载 2012-07-24 13:57:21 · 4400 阅读 · 0 评论 -
如何画热图(heatmap)
本人在做芯片数据分析的时候遇到这种情况:筛出来差异表达的基因如何可视化成了问题,一般情况下不同软件对待差异表达基因的可视化有不同处理,这里重点讨论一下常见heatmap图的绘制。传统的方法采用R语言包里面的heatmap()函数对其进行绘制,方法比较简单,如果要求较高可以采用这种方法来画图,但是操作起来会比较麻烦,可以参照这个网址进行操作http://flowingdata.c原创 2012-06-20 14:05:15 · 33926 阅读 · 0 评论 -
SAM基因芯片分析软件
转自:http://zhangyuexing.7ta.cn/Article/12289/1441SAM 软件(Significant Analysis of Microarray)它是由 Standford 大学开发的一个免费软件, 目前广泛地被学术界所采用,进行挑选差异基因。SAM 软件可以作为插件在Office Excel 软件中进行应用,很容易被生物医学工作者掌握。SAM 软件进行分转载 2012-06-17 14:51:34 · 9539 阅读 · 0 评论 -
k-means聚类的缺点
转自http://www.cnblogs.com/emanlee/archive/2012/03/06/2381617.htmlSimilar to other algorithm, K-mean clustering has many weaknesses: 1 When the numbers of data are not so many, initial grouping转载 2012-05-21 17:07:14 · 5027 阅读 · 0 评论 -
dbscan算法
dbscan算法是一种基于密度的聚类算法。该算法的目的在于过滤低密度区域,发现稠密度样本点,跟传统的基于层次聚类和划分聚类的凸形聚类簇不同,该算法可以发现任意形状的聚类簇,与传统的算法相比它有如下优点: 与K-means比较起来,你不必输入你要划分的聚类个数; 聚类簇的形状没有bias; 可以在需要时输入过滤噪声的参数;DBSCAN中的的几个定原创 2012-05-22 13:21:05 · 18638 阅读 · 5 评论 -
BLAST+中makeblastdb参数详解
转自http://hi.baidu.com/lidaof/blog/item/fb4569cfc2011931f9dc612f.html以后打算工作中用到的相关BLAST操作全部用BLAST+来完成与以前的Blast相以,我们还是从格式化数据库到比对开始一般我们是有一个fasta文件用来格式化数据库,以前的命令是formatdb,现在是makeblastdb一般用到的格转载 2012-05-15 09:57:02 · 35455 阅读 · 1 评论 -
两列样本差异基因筛选
转自http://blog.sina.com.cn/s/blog_63329a920100o6yd.html两列样本数据的差异基因筛选方法:FoldChange法+FDR控制其中,FDR值的计算方法如下:1)对每个基因进行p-value的计算假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p转载 2012-05-29 14:16:11 · 6052 阅读 · 0 评论 -
GIF(genomic inflation factor)值的计算方法
GIF值通常用在GWA过程中,用来控制该过程质量;鉴别出那些低质量的基因标记;例如在统计学中,GIF值大于1.0表示结果有低质量数据的出现;那么我们如何计算gwa中的GIF呢;在matlab中,我们使用qqplot()来生成QQplot图,但是这并不意味这我们能够很容易的计算并得到GIF值,我们生成QQplot以后才能从头计算GIF。第一步就是,我们首先得到正态分布的期望顺序统计量;正态分翻译 2012-03-21 14:15:14 · 6396 阅读 · 0 评论 -
Q-Q plot 在GWAS中的意思
Q-Q plot 即Quantile-Quantile Plot。它在各类研究中经常用到,主要是直观的表示观测值与预测值之间的差异。在SPSS中很容做,Analysis - Descriptive statistics - Q-Qplot。Q-Q plot主要是用来估计数量性状观测值与预测值之间的差异。一般我们所取得的数量性状数据都为正态分布数据。在GWAS研究中Q-Q plot的X和Y轴转载 2012-03-21 13:32:15 · 20479 阅读 · 0 评论 -
OR(odd ratios)
OR值的全称是odd ratio, OR值是相对危险度,又称比值比,对于发病率很低的疾病来说,它是OR值即是相对危险度的精确估计值。计算公式如下:Odd ratio, 95% CI假定我们要鉴别一个基因(或者标记位点SNP)有两个等位基因(等位):记为Allele 1Allele 2Allele 1转载 2012-03-20 13:25:12 · 13821 阅读 · 0 评论 -
核酸序列分析
转载一个很全面的核酸序列分析的文章 核酸序列分析核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS 服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段转载 2012-04-06 15:03:57 · 5139 阅读 · 1 评论 -
linux下R安装会遇到问题以及解决方法
How to install R on a local machine, the problems faced and troubleshootingDownload the tarball of R-2.6.2 from http://www.icewalkers.com/Linux/Software/530020/R.html onto your local machine, f转载 2012-03-31 14:07:05 · 5802 阅读 · 0 评论 -
使用Aspera从EBI或NCBI下载基因组数据modified
转自:http://www.plob.org/2012/07/31/3013.html做基因组数据分析,可能经常从NCBI的GEO/SRA或者EBI的ENA数据库下载高通量的数据,动辄几十G的数据用wget下载实在太纠结,这时就要用到神器-Aspera了。使用Aspera,最简单的方法当然就是使用浏览器插件Aspera Connect了,跟迅雷、Flashget的用法差不多,直接单转载 2012-11-26 16:13:46 · 14419 阅读 · 2 评论