
生物信息学
文章平均质量分 78
Drone_xjw
您的支持是我不竭的动力!
展开
-
北京大学生物信息学第八周随笔笔记
课程笔记第八周非编码RNA相关背景非编码RNA鉴定第八周非编码RNA相关背景非编码RNA:不需要翻译为蛋白就可以行使其生物学功能的RNA功能,microRNA,作为肿瘤等多种疾病治疗靶点Long ncRNAs目前大约有2000多非编码RNA非编码RNA鉴定identification:也就是根据特征进行分类,那么有什么特征呢生物学特性特征遗传进化信息特征序列特征...原创 2021-03-07 17:24:55 · 154 阅读 · 0 评论 -
RNAseq数据分析第13-15课
目录FAQcufflinks分析流程cufflinks软件使用注意事项新转录本分析LncRNAFAQcufflinks分析流程步骤1、7、8可以直接得到差异表达的结果步骤1、3、4、6、7、8使用了一个新的GTF文件转录本重构容易造成误差基因表达量为0如何提取差异表达基因topat中有GTFtofastaA功能关于生物学重复试验样本间基因表达水平相关性,绘制样本表达散点图。如果重复试验样本表达一致,则可以说明是服从生物学重复试验。cufflink原创 2021-01-11 09:39:17 · 513 阅读 · 0 评论 -
RNAseq生物信息分析第11课
目录基因差异表达筛选cufflinkscufflinks案例cuffmergecuffcomparecuffdif基因差异表达筛选计算每个基因的RPKM值,通过基因表达量以区分基因差异表达下面三个案例哪种才是较大的基因差异表达呢?通常基因差异表达有两个标准fold-change2. FDR校正首先计算p-valuecufflinks根据tophat比对结果,输入到cufflinks,依托或不依托参考基因组注释文件计算每个转录本的FPKM值,并给出注释结果。根据toph原创 2021-01-10 16:13:40 · 500 阅读 · 0 评论 -
RNAseq数据分析第9-10课
目录RNAseq数据评估序列比对FAQ基因表达量的计算计算基因表达量软件rpkm计算(rpkmgorgenes.py)RNAseq数据评估主要包括测序饱和度和测序随机性两个指标横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。序列比对FAQ测序数据量测序不饱和的影响可以比对到基因组,比对不到基因集基因集是指具有遗传特性的基因编码的集合,原创 2021-01-07 08:28:26 · 801 阅读 · 0 评论 -
RNAseq数据分析--read比对
目录Bowtie比对sam文件格式samtools工具tophat比对工具比对案例Bowtie比对tophat和Bowie是同一个作者,tophat调用了Bowtie比对。Bowtie1针对50bp以下的reads比较好,但不适合长度大于1k的片段,不支持空位比对,不支持压缩格式。Bowtie2针对50bp以上的reads比较好Bowtie比对也是需要先对目标建立索引才能比对,建立索引需要使用Bowtie2的build工具。当建立完索引之后再比对即可,比对后可能生成sam文件。Bowt原创 2021-01-06 15:21:52 · 1890 阅读 · 0 评论 -
RNAseq数据分析--第5-7课
目录RNAseq有无参考序列的差别真核RNAseq和原核RNAseq的差别参考序列的下载GTF和BED文件格式RNAseq有无参考序列的差别RNAseq分析流程图RNAseq分类RNA比对回到基因上,最好是同一个个体,因为可能存在个体差异,一个人中存在而在参考基因组上不存在,那就没办法比对回去。由于个体是非常难得到的,所以选择参考基因组。但如果某物种未存在参考基因组,那就只能用RNAseq Denovo有无参考序列的差别基因融合是通过不同染色体的外显子组合成为新的转录本真核RNAse原创 2020-12-29 21:08:07 · 637 阅读 · 0 评论 -
RNAseq数据分析--RNA-Seq数据质控
目录RNA-seq数据质控测序数据处理RNAseq测序FAQRNA-seq数据质控在数据分析之前,需要对数据质量控制数据质控指标碱基含量分布(应该满足碱基互补配对)碱基质量分布质量值>=Q20 : 好碱基质量值<Q20: 坏碱基测序质量软件测序数据处理adapter接头去除N碱基过多的reads去除低质量如下图所示,低于20的值转为0;高于20的值转为1;计算0的个数占比高于30%,那么去掉该reads数据过滤,注意是pair原创 2020-12-29 17:20:43 · 4210 阅读 · 0 评论 -
RNA_seq生物分析学习--RNA-seq实验
目录第五课 RNAseq样品提取与处理第六课 RNAseq建库测序第7课 链特异性文库第五课 RNAseq样品提取与处理RNA-Seq实验流程总RNA提取样品检测(主要检测样品是否合格,是否发生降解等)样品要求合格的样品(只有1-2个峰,且长度在1000-4000)不合格的样品样品检测等级,A最好,D最差低质量样品影响总RNA提取,(由于总RNA中包含各种类型的RNA,而常用的是对mRNA进行处理,因此需要在总RNA中提取这1%-5%的mRNA)而提取mRNA方原创 2020-12-29 14:55:41 · 2659 阅读 · 0 评论 -
RNA_seq生物分析学习--RNA-seq介绍
目录第一课 课程介绍第二课 RNAseq技术第三课 RNAseq发展历史第四课 关于基因的概念第五课 RNAseq样品提取与处理第一课 课程介绍RNAseq捕获了细胞某一状态下所有的转录信息DNA是静态信息、RNA是动态信息,是某一时刻DNA表达谱的快照课程大纲RNAseq的应用第二课 RNAseq技术转录组概念中心法则(高通量测序验证了中心法则是正确的)mRNA是编码RNA、其余RNA称为非编码RNA。(非编码RNA由基因组上非基因区转录出来)人类基因组上只有10%是基因区,原创 2020-12-25 15:12:15 · 17309 阅读 · 0 评论 -
bedtools从剪切位点两边提取序列
目录下载数据(人类)NCBIGenCodebedtools获取内含子位置获取内含子序列获取上下游位置和序列参考文章下载数据(人类)NCBI由于我需要获取剪切位点两边的序列,那么我需要下载参考基因组数据和注释文件。参考基因组下载常用的有ncbi、ucsc和ensemble。下图是参考基因组版本对应信息。我是从NCBI下载链接(https://www.ncbi.nlm.nih.gov/)点击搜索之后,就可以在页面中找到了。GenCode我的注释文件是在GenCode下载,下面为版本信息原创 2021-01-11 20:55:03 · 2849 阅读 · 0 评论 -
生物序列生成onehot编码
定义生成onehot类每次读入一行描述行和一行序列生成csv文件import pandas as pdfrom numpy import arrayfrom numpy import argmaxfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import OneHotEncoderimport re# fasta = ">description\nAAAAAAAAAAAAAAAC.原创 2020-10-19 09:02:52 · 1991 阅读 · 0 评论 -
整个文件生成onehot编码-sklearn方法
把生物序列转化为onehot编码读取文件(注意这个文件没有fasta文件的描述行,只有序列行)保存为csv,每行表示一个字符from numpy import arrayfrom numpy import argmaxfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import OneHotEncoderimport pandas as pdimport numpy as npflag =.原创 2020-10-19 08:58:31 · 918 阅读 · 0 评论 -
python生成序列的weblogo图
记忆力越来越差了,用个logo图都忘。还是写下来吧!奥利给~首先,如果是想立即看下logo图的话,我们可以用在线版,链接如下:http://weblogo.threeplusone.com/create.cgi如果是本地命令行的话,可自定义参数较多。python 安装weblogo包pip install weblogo安装好之后就可以使用,命令如下# Donor_Positive.fasta是输入序列文件# Donor_Positive.png 输出的logo图#.原创 2020-10-15 14:06:11 · 2504 阅读 · 0 评论 -
北大生物信息学第12周学习笔记
课程笔记第12周新基因鉴定及演化分析-概念与实例新基因鉴定及演化分析讲述老师发现研究新基因的过程和方法第12周新基因鉴定及演化分析-概念与实例新基因是什么?简单地说是最近演化时期基因组中产生的新基因依据节简原理(parsimony principle)也就是假设最少的假说越有可能是真的,所以如下图所示,11种分子机制,在独立或组合地产生新基因信基因与上亿年前的基因具有同等重要的功...原创 2020-05-27 21:01:23 · 477 阅读 · 0 评论 -
blastpgp生成pssm矩阵时出现错误blosum62错误
环境ubuntublast-2.2.26错误这个问题困扰了我一个多小时,因为我昨晚是可以跑生成pssm矩阵的blast命令blastpgp -a 30 -i train_negative/new_negative_274_.fasta -d /home/xujunwei/dbs/uniref50 -h 0.001 -e 0.0001 -j 3 -Q pssm_files_train_negative/new_negative_274_.pssm但是早上过来就报下面的错误。解决.原创 2020-05-21 11:02:12 · 994 阅读 · 0 评论 -
北大生物信息学第10-11周课程笔记
课程笔记第10周本体论与基因本体论kegg分子通路数据库GO注释分子通路鉴定药物成瘾共同分子通路的第11周数据库资源简介NCBI数据库EBIUCSC Genome Browser其他数据库第10周本体论与基因本体论背景是由于以前不同生物学家对于一个物种或者一段基因得命名不同,还有许多简称。这对于计算机来说是无法识别的。所以,我们需要一个规范定义,也就是Ontology,本体论。那么,...原创 2020-04-18 13:06:07 · 476 阅读 · 0 评论 -
北大生物信息学课程第8-9周课程笔记
课程笔记第八周第一课第二课第9周非编码RNA相关背景长非编码RNA鉴定差异表达与聚类分析第八周第一课利用深度测序技术研究转录组背景:转录组就是指细胞特定时刻基因表达谱的快照转录组通过定性定量研究,如实时荧光定量分析,对起始模板定量分析,可以检测目标转录组的表达水平。然而一次只能测定一个转录本,还要知道待检测转录本序列,因此难以用来检测未知序列基因芯片Micro array。但仍然需要...原创 2020-04-11 21:11:59 · 486 阅读 · 0 评论 -
coursera北京大学生物信息学(第五-第六周)课程笔记
如果觉得有用,谢谢点赞鼓励课程笔记如果觉得有用,谢谢点赞鼓励第一课 新一代测序第一课 新一代测序主要讲解了新一代测序在DNA、RNA和蛋白质方面的应用。并且测序结果包含了测序误差信息(转化为ASCII码)。/1和/2表示一条链的两头测序...原创 2020-03-31 13:49:14 · 962 阅读 · 2 评论 -
coursera北京大学生物信息学(第三-第四周课程笔记)
如果觉得有用,谢谢点赞鼓励课程笔记如果觉得有用,谢谢点赞鼓励第三周第一课第二课第三周第一课通过上周的动态规划算法引入了blast算法,这也是现在常用的序列比对算法。swiss-prot数据库的数据是经过科研人员验证过的数据,所以也更为可靠。与Needleman-Wunsch、Smith-Waterman等基于动态规划的算法不同, BLAST是一种启发式的算法, 也就是说,它并不确保能...原创 2020-03-27 22:37:22 · 816 阅读 · 1 评论 -
R语言 错误: `data` and `reference` should be factors with the same levels.
谢谢点击进来,如果您觉得有用,麻烦点赞鼓励一下!报错如下图:这个问题困扰了好久,看这个信息也没看到是哪里出错,然后一行一行执行。最终找到了rf.confusionMatrix <- confusionMatrix(rf.class , data.test$Class, positive = "T")这行代码是通过预测出来的结果和测试集比较,生成混淆矩阵。那么这个levels指的就...原创 2020-03-25 16:52:33 · 10617 阅读 · 2 评论 -
R语言用ROCR包出现载入程辑包:‘gplots’ The following object is masked from ‘package:stats’错误
谢谢点进来,如果你觉得有帮助,麻烦点个赞。假如在R studio运行的代码是这样的:library(ROCR)首先看到这个问题的时候,我认为是你没有安装gplots包,可以按下图所示看是否有该包,如果没有则点击install输入包名安装。奇怪的是本机有这个包,为什么还报错无法载入呢?原来是两个包中有函数重名了 。这时候,我们只需要加上一句,就可以解决了,意思就是屏蔽这个警告信息 ...原创 2020-03-25 16:30:10 · 14522 阅读 · 2 评论 -
北京大学生物信息学课程笔记(第一 二周课程笔记)
课程笔记第一课第二课第一课课程涉及什么内容序列比对算法,如何在大量的基因序列中找到与我最相似的–blast序列统计工具如何基于已知数据预测未知通过马尔可夫模型预测如何回帖到参考基因组鉴定一个人的遗传变异如何计算基因表达差异案例实践什么是生物信息学染色体内的基因组就像是人的说明书四个碱基ATCG,so simple, yet so mysterious.生物序...原创 2020-03-20 17:20:29 · 1446 阅读 · 0 评论