羊城迷鹿
你相信魔法吗?(广东某魔法学院毕业生,欢迎私信交流最新咒语、魔药配方和炼丹秘笈)
展开
-
生信入门:专栏概要与内容目录
开启生物信息学的学习之旅。原创 2025-04-04 18:37:35 · 336 阅读 · 0 评论 -
宏基因组测序流程(不完全版)
文章目录所做工作收获宏基因组分析流程Step1.去除宿主污染Step2.去除接头序列Step3.对序列进行进一步质控Step4.对read进行进一步拼接(contig)Step5.对contig进行orf预测Step6.查找orf区翻译出来的氨基酸序列对应的蛋白质家族所做工作Step1.去除宿主污染Step2.去除接头序列Step3.对序列进⾏进⼀步质控Step4.对read进⾏进⼀步拼...原创 2019-09-18 21:31:53 · 23316 阅读 · 0 评论 -
生物信息学反卷积论文阅读
文章目录反卷积的概念反卷积的具体方式反卷积预测RNA序列知识背景公式推导亚硫酸氢盐测序知识背景公式推导R包的使用RNA测序数据分析使用亚硫酸氢盐数据进行测序反卷积的概念由于许多组织样本不适合分解成单个细胞,因此不能利用单细胞RNA测序技术对它们的单个细胞进行测序。但是对于整个组织进行RNA测序是很容易的事情,而反卷积所做的就是由整体来探测局部,从而获知整个组织中的细胞类型,比如说了解实体肿瘤的...原创 2019-08-07 19:34:17 · 4519 阅读 · 0 评论 -
生信自学笔记(十二):基因组序列与基因预测
基因组 在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列。对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DNA分子。对于有性生殖个体,通常是指一套常染色体和两种性染色体的序列。基因组包括核基因组、线粒体基因染色体中心li组和叶绿体基因组等。一般而言,染色体中心粒附近重复序列多而编码序列少...原创 2018-09-07 16:19:05 · 19351 阅读 · 0 评论 -
生信自学笔记(十三):线性代数回顾与马尔可夫链
今天在看关于马尔可夫链的一些基础知识,深感大一的线性代数没有打好基础,许多概念尚模糊不清,一些定理的证明也看得费力,于是花一个下午的时间做了些回顾,总结如下。线性代数篇 特征向量and特征值 矩阵从直观上来看,能在空间中对向量施以变换,一般来说,这种变换既是在大小上的,也是在方向上的。但在某些情况下,它只能够改变某种向量的大小,而不能改变某种向量的方向,用数学表达式来说,就是,其...原创 2018-09-09 15:48:17 · 2602 阅读 · 0 评论 -
生信自学笔记(十一):熵与信息量
在信息论中,熵(entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息” 代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。由于一些其他的原因,把信息(熵)定义为概率分布的...原创 2018-08-15 12:25:32 · 1738 阅读 · 0 评论 -
生信自学笔记(八)盲人摸象与BLAST 算法
“看到BLAST算法,我一下子想起了盲人摸象这个小故事,只不过这一次,要讲一个新故事了,权且叫它‘新盲人摸象’吧。”国王有一天突然想和当初玩摸象的盲人再玩个新游戏,就把一个自己最喜爱的盲人叫了过来。国王对他说:“嘿,你还记得上次我告诉你们的象的全貌吗?”盲人:“当然记得啦,它的牙齿像一个大萝卜,鼻子像一段长长的水管,耳朵像大蒲扇,四条腿像柱子,尾巴像条草绳,···”国王:“好啦好...原创 2018-08-07 19:58:45 · 4143 阅读 · 4 评论 -
生信自学笔记(十):多序列局部联配算法
思路一:索引法局部联配,所以对两段相似度较高的碱基序列就不要求处于临近的位置,通过比较哈希索引的偏移,我们可以方便地实现这一点。 思路二:最大期望算法(expectation maximization:EM)对这种迭代算法一个通常的比喻是:要均匀地把饭分到两个碗里面,先随机分配,看到那个碗里面饭比较多,就从中舀一些到另外一个碗里面去,直到看上去两个碗里面的饭完全一样为止...原创 2018-08-14 15:21:10 · 1816 阅读 · 0 评论 -
生信自学笔记(七)Smith Waterman算法的 python 实现
和上一回的算法相比,这是一个更加注重局部比对的算法,返回的是一段对比度最高的序列。其最精彩之处就在于引入了0这一可能,这样在任何时候,序列比较都能从当前位置从头开始,从而实现局部性。为了能更有效率地完成回溯,在给矩阵打分时将打分结果记录在了几个数组中,并且在回溯时使用这几个数组加速过程。这次写又掌握了numpy的许多新功能,比如zip、around、arange等等。具体用法可以看下面的代...原创 2018-08-06 22:43:38 · 3421 阅读 · 2 评论 -
生信自学笔记(九)智慧的长者与多序列联配之clustal全局联配算法
要不,还是先讲个黑暗的小故事吧。国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着。“这可不行,这么多人,东西哪够分啊,好东西都分给这么些人了,我还玩啥呢?”国王愤愤嘟囔了半个月,终于下定决心,张榜公告天下:地不分南北,人不分贵贱,全国除皇室外所有家庭,一律只能有一个孩子;多余者,自己亲自送入皇宫充当奴隶;如有瞒报,满...原创 2018-08-09 21:02:53 · 1095 阅读 · 0 评论 -
生信自学笔记(五)计分矩阵的实例
氨基酸替换矩阵PAM 替换矩阵 PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个 PAM 就是一个进化的变异单位, 即 1% 的氨基酸改变,但这并不意味 100 次 PAM 后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基...原创 2018-07-31 15:51:13 · 9746 阅读 · 1 评论 -
生信自学笔记(四)序列联配与计分矩阵
序列分析是生物信息学最主要的研究内容之一, 它可以分为两个主要部分, 一是序列组成分析 (包括基因和基因组层次), 二是序列之间的比较分析。两条序列或多条序列间的联配或比对, 目的是对它们的序列相似性进行评估, 找出这些序列中结构或功能相似性区域等。通过联配未知序列与已知序列 (其功能或结构等已知) 的相似程度, 我们可以判断或推测未知序列的结构与功能。序列联配基本概念 序...原创 2018-07-30 22:51:57 · 3917 阅读 · 3 评论 -
生信自学笔记(三)分子数据库
分类基因组数据库:GDB、GenBank、Ensembl 核酸数据库:ENA(EMBL)、GenBank、DDBJ 蛋白质数据库:SWISS-PROF、PIR、PDB 一个数据库记录由两部分组成:原始序列数据和描述这些数据生物学信息的注释。记录格式FASTA 在生物信息学中,FASTA 格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单...原创 2018-07-27 14:31:57 · 4805 阅读 · 0 评论 -
生信自学笔记(六)Needleman-Wunsch算法的python实现
Needleman-Wunsch 算法是一种全局联配算法,原理说起来不算难,就是首先把两条目标 DNA 序列的最前面加一个空格代表空位,然后画一个大小为(一条 DNA 序列长度 * 另一条 DNA 序列的长度)的矩阵,矩阵横纵坐标分别代表对应序列的碱基或是空位,这样就可以依据打分规则把这个矩阵填充起来。而矩阵的初始化方法是这样的,首先填完第一行和第一列,也就是简单的其中一个是空位的配对情况,然...原创 2018-08-03 20:32:22 · 6021 阅读 · 5 评论 -
生信自学笔记(二)生物信息
基本类型1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序。DNA : A T C GRNA : A G C U2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺序(即蛋白质的一级结构)。 蛋白质结构数据指的是蛋白质的三级结构信息。其三级结构是在各种二级结构的基础上,再进一步盘曲或者折叠形成的具有一定规律的三维空间结构。蛋...原创 2018-07-26 16:19:08 · 5916 阅读 · 0 评论 -
生信自学笔记(一):概述
想涉猎生物信息学已经很久了,只是苦于平时作业繁重,没有连续的时间坐下来好好学习。好不容易捱到暑假,是时候补一波知识了。自学教材:《生物信息学》(樊龙江主编)当初在图书馆找教材,找了好几种,出版社不同,年代不同,装帧风格也非常不一样。迷茫的我就去请教了研究生师姐,然鹅她说课本这种东西都是大同小异的,于是我果断选了颜值最高同时也是出版最新的一本书 (2015 应该算是很新的了)。现在想想,可能...原创 2018-07-25 14:31:03 · 4392 阅读 · 5 评论