
生物信息
文章平均质量分 62
生物信息学分析相关的文章
图灵生信
我爱学习,你爱吗[狗头]
展开
-
常见几种简单的深度学习算法在生物医学数据领域的特点和不足
在实际数据分析与模型构建过程中,往往需要根据实际项目背景、数据逻辑、数据质量等选择最合适的算法。切忌盲目追求高大上的算法模型。通过表格的形式,总结了常见几种简单的深度学习算法在生物医学数据领域的特点和不足(原创 2024-08-23 16:05:17 · 1063 阅读 · 0 评论 -
python脚本:输入基因名,通过爬虫的方式获取染色体上的location。
python脚本:输入基因名,通过爬虫的方式获取染色体上的location。原创 2024-08-23 15:33:09 · 436 阅读 · 0 评论 -
Python读取fasta格式数据成为字典形式。
Python读取Fastq格式数据成为字典形式。原创 2024-08-23 15:29:17 · 337 阅读 · 0 评论 -
基因组学中的深度学习 (转载)
转载说明:本文转载至 ‘碱基矿工’ 公众号这一篇文章的主题是深度学习在基因组学中的应用情况的。文章较长,读完要花些时间,不过我的建议是通读第一部分——关于如何进行模型训练的内容,读完后你应该可以理解机器学习模型的训练过程和逻辑,剩下的部分可以挑重点的看。START基因组学其实是一门将数据驱动作为主要研究手段的学科,机器学习方法和统计学方法在基因组学中的应用一直都比较广泛。不过现在多组学数据进一步激增——这个从目前逐渐增多的各类大规模人群基因组项目上可以看出来,这其实带来了新的挑战——就是数据挖转载 2020-09-20 11:51:52 · 3411 阅读 · 0 评论 -
流感病毒RNA与宿主mRNA融合,产融合蛋白质
原来的观点流感病毒在宿主细胞中,通过掠夺宿主细胞mRNA的5'-Cap,从而欺骗宿主的翻译系统,最终实现病毒蛋白的合成。文章新的发现流感病毒在掠夺5‘-Cap的时候,也有可能将宿主 mRNA 5’端的一段序列一并掠夺并融合在一起。翻译后,就产生了一个融合的蛋白质。1.Hybrid Gene Origination Creates Human-Virus Chimeric Proteins during Infection2.病毒基因竟会和人类基因融合到一起,产生...原创 2020-09-23 12:30:14 · 591 阅读 · 0 评论 -
VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法 (转载)
VAF的概念和计算方法VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:VAF=AlleleDepthTotalDepth=ADDP VAF = \fr原创 2020-09-06 13:21:14 · 22865 阅读 · 0 评论 -
VCF格式
vcf格式VCF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支持,当然SAMtools得到的结果也是VCF格式,和GATK的VCF格式有点差别。 vcf格式包括 以“#”开头的注释部分 和 没有“#”开头的主体部分 。vcf的主体结构第1列: CHROM : 参考序列名称第2列: POS:variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置第3列: ID:variant的ID;比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’原创 2020-09-06 12:40:57 · 1576 阅读 · 0 评论 -
bcftools: 为 vcf 文件建索引及合并 vcf 文件 (转载)
bcftools 为 vcf 文件建索引及合并 vcf 文件1. bgzip 压缩 vcf 文件为 gz 文件bgzip -c T8_B8_TN_20171226190133_TN_haplotyper.vcf >T8_B8_TN_20171226190133_TN_haplotyper.vcf.gzbgzip -c T9_B9_TN_20171226195650_TN_haplotyper.vcf >T9_B9_TN_20171226195650_TN_haplotyper.vcf.gz转载 2020-09-20 15:18:37 · 8063 阅读 · 0 评论 -
计算BAM文件中,单个位点的ATCG的read数量和coverage
计算BAM文件中,单个位点的ATCG的read数量和coverageimport pandas as pdimport osimport pysamimport sys# usage:# python bam2coverage.py bamfile posfile output## bamfile:# posfile: column1, chrom; column2, position# output:## position is starting with 1bamfile原创 2021-03-22 17:13:23 · 1762 阅读 · 0 评论 -
VCF只保留INFO的AF信息
从 gnomAD 数据库下载的 WES mutation 中包含了很多冗余信息。如果直接用于 GATK mutect2 filter Germline,将极大占用内存资源。GATK在这一步,仅需要AF信息,因此可以删除其它冗余数据。原本的vcf1 12237 rs1324090652 G A 81.96 AC0 AC=0;AN=0;rf_tp_probability=4.32548e-01;FS=0.00000e+00;Inbreeding原创 2020-11-02 16:08:42 · 1609 阅读 · 0 评论 -
修改vcf文件中的染色体名
问题描述在生物信息分析过程中,常常需要修改 vcf 染色体名称,即删除染色体名中的chr字符或添加chr字符到vcf文件中。这里使用shell脚本和bcftools两种方式实现。1. 通过 shell 脚本实现下面的shell脚本要求输入vcf为解压缩(因为我的数据是没有压缩的……)通过 awk 添加 chr 字符awk '{ if($0 !~ /^#/) print "chr"$0; else if(match($0,/(##cont原创 2020-10-10 12:40:09 · 10405 阅读 · 8 评论 -
修改 bam 文件中染色体名
问题描述在分析的过程中,有些数据的染色体命名为“chr1、chr2、…、chrX、chrY”,而有些数据的染色体命名则为“1、2、…、X、Y” (也就是不包含 chr 字符)。这里,通过代码对 bam 文件作为修改,实现染色体名的统一。代码实现假设我们有一个名为 test.bam 的文件,其中染色体名不包含chr字符,需要在染色体名前加上chr字符。通过 samtools 和 shell 实现 (注:samtools reheader 需要给一个- 的参数,不给会报错):samtools vi原创 2020-10-09 14:13:37 · 5911 阅读 · 4 评论 -
生信在线工具(转载)
Web服务器名称 网址 简要描述;简介 agriGO v2 http://systemsbiology.cau.edu.cn/agriGOv2/ GO分析农业物种 AMMOS2 http://drugmod.rpbs.univ-paris-diderot.fr/ammosHome.php 能量最小化蛋白质 - 配体复合物 antiSMASH http://antismash.secondarymetabolites.org/ 细菌和真菌基因组中的次转载 2020-09-21 18:53:29 · 18224 阅读 · 0 评论