- 博客(28)
- 收藏
- 关注
原创 MISAG与MIMAG:基因组质量评估标准
宏基因组数据进行分箱(binning)后,需要对得到的宏基因组组装基因组(MAG)进行质量评估。常用的工具是CheckM,主要以每个MAG的completeness与contamination来作为判断指标。Bowers, R., Kyrpides, N., Stepanauskas, R. et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG)
2021-12-26 22:59:37
2911
原创 【文献阅读】全球非冗余微生物基因集GMGCv1的构建
本文从全球尺度上14种生境(包括宿主相关与环境)中的宏基因组数据整理了一个标准统一、不含冗余的基因集,称为Global Microbial Gene Catalogue,简称GMGC,后面的v1指的可能是第1版,之后可能还会有进一步的更新。
2021-12-21 16:48:28
2384
原创 【编译办法】Apache Log4j2远程代码执行漏洞(CNVD-2021-95914)补丁办法
log4j-2.15.0-rc2.jar编译过程
2021-12-14 14:44:09
3266
原创 从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一系列的科学问题。其中,我们常常可以通过OTU/ASV在不同样本间的共现关系得到它们之间的相关性关系。在WGS支持下的宏基因组测序分析,通过组装、分箱等步骤可以获得metagenome assembled genomes(MAGs),每一个MAG常被认作一个单菌,我们选取高质量(完整度高、污染率低)的MAG可以
2021-08-09 14:47:50
5313
2
原创 DNA-蛋白翻译过程的Python实现
引言最近为了给平台上加上一个将DNA序列翻译为蛋白序列的工具,写了一个任何生信玩家初学时都会写的代码。看了一些别人的翻译工具,我也想尽量把代码写的完整一点,在这个过程中首次接触并使用了BioPython,目前看起来还是很好用的。代码#!/bin/python3from Bio.Seq import translate, reverse_complementfrom Bio import SeqIOfrom Bio.SeqIO.FastaIO import SimpleFastaParseri
2021-04-08 15:47:17
2899
原创 BioPython读取FASTA文件保留header中空格的方法
问题最近开始学习使用Biopython这个工具包,非常方便地可以处理一些序列文件。最近用Bio.SeqIO模块进行读取fasta文件到字典中的时候发现一个问题,如果你的fasta文件>开头的那一行header中含有空格的话,该行内容以键存到字典里,这个header会被从第一个空格的地方截断,比如原本的文件是这样的:>Header1 this is the sequence nameATCGATCGATCG读进去之后可能就变成了>Header1解决办法使用descripti
2021-03-30 17:15:17
992
原创 用bs4完成html中标签中文本的爬取
其实还是为了昨天的工作(https://blog.youkuaiyun.com/Emmett_Bioinfo/article/details/114590394)。经过我查阅了一些资料,我发现用Selenium来做昨天这件事确实是大材小用了,因为获得文本内容其实只需要网页源代码,根本不需要把网页全部显示出来,昨天的做法对于这件事来说是又慢又吃力不讨好。今天学习了一下beautiful soup4干了这件事,代码如下:#!/bin/python3#coding=utf-8#from selenium impor
2021-03-11 16:49:40
703
4
原创 初探Selenium:获取网页中的特定标签下的文本信息
工作目的组里师兄最近遇到一个问题,他有一堆有机物化学式需要去http://www.chemspider.com这个网站上看看有没有已知的结构和物质。他的化学式太多,一个一个查肯定效率低下,于是想用代码来做这件事。我之前也是正好瞅见过其他师兄用过selenium这个软件来做浏览器的模拟,想了一下可能自己可以试试这个东西的用法,然后就造出了下面这个代码。代码没空写太多废话,直接上代码:#!/bin/python3#coding=utf-8from selenium import webdriver
2021-03-09 17:24:59
2385
原创 sudo dpkg --configure -a卡在内核更新update-initramfs的解决方案(可能版)
最近在处理数据的时候,需要安装一些新的软件。但是遇到了这样一个问题,纠结了很久查了很多地方,也不知道怎么能行。最关键的是自己不是很了解相关的知识,很多操作也不知道能不能做!我用以下命令安装软件:sudo apt-get install XXXXX这个命令很普通,但是突然有一天它就报错,错误信息是:E: dpkg was interrupted, you must manually run 'sudo dpkg --configure -a' to correct the problem.那你说
2021-02-22 18:54:25
6797
原创 宏基因组数据处理 - Nanopore下机数据fast5格式
过年期间,我的三代Nanopore测序数据回来了。本来期待的是几十G的数据吧,结果人家寄来的硬盘上来就是两三T,人直接傻了。经过整理,发现测序公司送来的数据分有两种类型,一种就是我们熟悉的FASTQ格式的文件,只算这些文件的话,应该就是我预料之内的数据量;而数据量中相当大一部分是.fast5格式的文件,我也是第一次处理Nanopore下机数据,这里也是查阅了一些相关的材料,整理下写成一份学习笔记。HDF5格式和FAST5格式.fast5格式实际上是在HDF5格式上的一种变体,不少讲.fast5文件的文档
2021-02-20 14:24:19
3726
2
原创 PBS文件编写备注(2020.12.18 updated)
最近在使用一组集群服务器跑我宏基因组的任务,服务器上跑任务使用的PBS作业提交系统。关于这个PBS系统是个啥东西大家可以自行百度。大概的意思就是一般不能在命令行上直接跑命令,要先将命令和对这个命令的说明(如任务名、节点安排等)写到一个指定的.pbs文件,再把该文件提交至系统,让系统调度文件来运行。我这次使用这个系统的目的是我的很多组宏基因组数据可以在上面并行运行,调用不同的节点,相当于有很多台服务器同步运行,这样能够增加我的效率。花了一段时间整理PBS文件的编写规则和PBS系统的基本命令,自己也摸索了一下
2020-12-17 16:20:23
1227
原创 Metagenome Assembly - Part2:[文献阅读] Why are de Bruijn graphs useful for genome assembly?
跟着欧拉的小蚂蚁一起爬吧!
2020-10-31 16:31:43
496
原创 Metagenome Assembly - Part1:基于德布莱英图(De Bruijn graph)的宏基因组de novo拼接
基因组学中的一笔画问题——Reads怎么拼接成重叠群(Contigs)
2020-10-25 16:14:23
3875
原创 【Rosalind】Longest Increasing Subsequence - 动态规划算法(Dynamic Programming)初探
你的当前状态是什么样的?记录好当前状态让后人来查——动态规划思想
2020-10-25 16:08:54
434
1
原创 【Rosalind】Enumerating k-mers Lexicographically - Python自带迭代器itertools模块
Itertools:为高效循环而创建迭代器的函数 Functions creating iterators for efficient looping
2020-10-25 16:05:52
493
原创 【Rosalind】Enumerating Gene Orders - 寻找全排列:dfs深度优先搜索算法
深度优先搜索算法 Deep First Search 的体验——全排列
2020-10-25 16:04:15
424
原创 【Rosalind】Finding a Protein Motif – 正则表达式的使用
“有些人面临一个问题时会想:‘我知道,可以用正则表达式来解决这个问题。’于是现在他们就有两个问题了”——Jamie Zawinski
2020-10-25 16:00:22
913
原创 【Rosalind】Finding a Shared Motif - all()函数的优雅使用
代码的优雅程度和它的计算效率之间有绝对关系吗?
2020-10-25 15:59:03
529
1
原创 【Rosalind】Consensus and Profile – break语句不能少
有时你需要一天的时间发现自己少写了一个break,这就是编程语言break你的方式。
2020-10-25 15:54:37
373
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人