自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 生信项目之宏基因组数据预处理

在宏基因组学研究中,双端测序(paired-end sequencing)是一种常用的测序策略,它可以从两个方向对同一个DNA片段进行测序,从而得到两个相关联的测序读段(reads)。当我们组装完宏基因组样本后,通常会进行一系列的下游分析,这些分析旨在从组装好的序列中提取生物学信息,进一步理解样本的遗传结构、功能特征以及潜在的生物学意义。一些常用的下游分析的工具将在后续的文章中展现。当我们得到双端序列后,需要对序列进行一个过滤操作,过滤的目的在于提高数据的质量和准确性,从而确保后续的分析结果可靠。

2024-08-12 21:02:13 1393

原创 生信项目之生信名词解释

测序深度关注的是测序的数据量大小,而覆盖度关注的是这些数据在基因组上的分布情况。启动子(Promoter)指特定基因转录的DNA区域,在基因的非编码区,即编码区的上游,转录mRNA的时候与RNA聚合酶结合的位点,告诉RNA聚合酶从启动子开始转录但启动子本身并不被转录。进化树(Evolutionary Tree)又称为系统树或系谱树,用来表示物种之间的进化关系,根据各类生物之间的亲缘关系的远近,把各类生安置在有分枝的树状的图上,从而简明地表示生物的进化历程和亲缘关系。Contigs是Contig的集合。

2024-03-17 20:46:36 2535 1

原创 生信项目之特征提取

特征提取是指从原始数据中提取出有效的信息,在生信项目中的原始数据一般分为氨基酸序列、核苷酸序列或者蛋白质的三维结构。特征提取的过程指从原始数据中提取出特征并将特征输入到机器学习算法中,以训练出具有预测或分类等功能的模型。在生信项目中,特征提取过程是非常重要的,这直接影响到后面模型训练的效果,不同的特征提取方法提取到的特征可能会造成最后模型训练结果的不同,也有些方法采取了特征融合的方法,将多维数据特征进行融合以输入模型中。

2024-03-13 20:30:00 2046

原创 生信项目之NCBI下载数据集详解

NCBI(National Center for Biotechnology Information)的中文名称是美国生物信息技术中心,该网站是美国医学图书馆(NLM)的一部分。该网站提供了下载数据集、上传数据集、在线分析数据集以及提供了部分生物信息学工具如(BLAST:一款序列比对工具)等功能。本文主要介绍如何在NCBI上下载数据集。这三种方法是目前比较常用的下载数据集的方法,当然还用其他很多下载数据集的方法,具体的下载数据集的方法要按照该生信项目的需求进行下载。

2024-03-10 19:51:49 8352 1

原创 生信项目流程

数据特征的选择是根据具体的项目进行选择的,不一定哪种数据特征提取的方法会好,也可以采用多视图特征融合的方法进行训练模型,以提高模型的性能。

2024-03-08 21:10:26 2090 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除