
Bioinformatics
生物信息学
DrugAI
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
展开
-
[Life Sciences.AI]专栏介绍及内容分类(持续更新......)
主要记录RDKit,分子生成,多肽和蛋白等生物大分子相关的操作和与人工智能的结合。蛋白相关蛋白Ramachandran(拉氏图、拉曼图)的绘制和可视化Biopython | 计算蛋白质的接触图(contact map)RDKit相关RDKit | 读取PDB文件并可视化...原创 2021-11-03 13:09:35 · 1600 阅读 · 0 评论 -
CentOS 7.8下安装PyRosetta4
PyRosetta是一个Python为基础的Rosetta交互套件。其打开了用户自定义的利用Rosetta采样方法和能量函数进行自定义建模的方法。PyRosetta由Jeffrey J. Gray,Sergey Lyskov和PyRosetta团队在约翰霍普金斯大学创立。获取安装包选择合适的版本:http://www.pyrosetta.org/dow编译安装#解压tar -vjxf PyRosetta4.Release.python36.linux.relea...原创 2020-06-19 10:08:42 · 1422 阅读 · 0 评论 -
CentOS 7.8下安装完美安装配置Rosetta
yum install boost-devel libstdc++ zlib zlib-devel bzip2https://zhuanlan.zhihu.com/p/58384830原创 2020-06-16 16:46:33 · 3505 阅读 · 4 评论 -
py3Dmol 简介、安装与入门
参考资料https://pypi.org/project/py3Dmol/https://future-chem.com/py3dmol/原创 2020-05-11 17:19:24 · 6864 阅读 · 1 评论 -
生物信息学 | GEO介绍与安装
GEO:Gene Expression OmnibusGEOquery包安装if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install("GEOquery", version = "3.8")...原创 2020-02-19 20:22:58 · 2556 阅读 · 0 评论 -
化学结构格式SDF的认识
第一行:一般作为分子名字,如 Levetiracetam第二行:注释,ChemDraw06111413562D第三行:一般是空行第四行:是原子个数 键的个数等的起始行。M END所在行结束原子个数 键的个数等信息。属性1属性1值空行属性2属性2值空行(以四个美元符号结束一个分子的信息存储。)Levetiracetam ChemDraw0...原创 2018-09-04 15:19:34 · 13738 阅读 · 2 评论 -
Python:计算两个蛋白或小分子之间的RMSD
Python脚本:计算两个蛋白或小分子之间的RMSD用法:python rmsd.py protein1.pdb protein2.pdbrmsd.py# Root-mean-square deviation (RMSD) for proteins and/or ligands# in PDB files.#class Pdb(object): ""...原创 2018-07-11 23:42:04 · 17049 阅读 · 17 评论 -
Python:PDB文件中原子和残基重新编号
Python脚本:PDB文件中原子和残基重新编号Command:python renumber_pdb.py -i protein.pdb -a -r > output.pdbrenumber_pdb.py# Python 3 script to atoms and residues in a PDB file.## run# ./renumb...原创 2018-07-11 23:56:03 · 8729 阅读 · 4 评论 -
医疗领域中的AI/ML机会前景
简介尽管有数百个项目和数千位数据科学家致力于将AI / ML引入医疗保健领域,但采用率仍然很低且缓慢。1.药物研发 医疗领域的所有AI / ML机会中,这一机会实际上是最遥远的。 主要原因是由大型制药公司支付资金并由资本市场提供资金,而不是由付款人/医院/临床医生/患者财务链提供资金。但是,由于创新研究的风险以及新药的极高成本和漫长的批准时间,这些创新的回报可能在将...原创 2019-11-07 16:05:56 · 1370 阅读 · 0 评论 -
Pymol & BioPython | PDB文件中氨基酸序列的提取
1. Pymol当前目录下有一个PDB文件,利用pymol的命令模式:pymol receptor.pdb -c -d "save receptor.fasta"2.BioPythonfrom Bio import PDBparser = PDB.PDBParser()structure = parser.get_structure('2FH7', '2FH7.p...原创 2019-11-01 12:56:28 · 14326 阅读 · 0 评论 -
标准氨基酸和质子化氨基酸 三字母 单字母 对应表
|中文名称|英文名称|三字母符号|单字母符号|丙氨酸 Alanine A Ala苯丙氨酸 Phenylalanine F Phe半胱氨酸 Cysteine ...原创 2019-10-31 17:05:35 · 3894 阅读 · 0 评论 -
Rosetta | Rosetta简介
RosettaRosetta概览Rosetta软件包括用于蛋白质结构的计算建模和分析的算法。它使计算生物学取得了显着的科学进步,包括从头进行蛋白质设计,酶设计,分子对接以及生物大分子和大分子复合物的结构预测。所有非商业用户均可免费使用Rosetta,商业用户可付费使用Rosetta。Rosetta的开发始于华盛顿大学David Baker博士的实验室,作为结构预测工具,但从...原创 2019-11-08 15:05:24 · 12909 阅读 · 0 评论 -
SMILES & InChI | 化学结构的线性表示法
SMILES表示法、SMARTS表示法和InChI表示法都是用少量字符表示结构信息的重要方法。化合物的图表示 可以将一个分子视为一个以原子为节点,结合为边的图。图形可以表示一个原子如何连接到另一个原子。如果已知原子之间的键数,则可以在以后添加氢原子,因此在计算机上表示分子时通常会省略氢原子。 例如,丙烷可以表示为...原创 2019-10-14 09:26:01 · 6721 阅读 · 1 评论 -
差异表达基因-火山图和聚类图解释
想研究某现象的分子机制,老板豪气的来一句,先测个转录组吧,看下差异表达基因。是否在心里窃喜,制个样就完事了,太easy有木有。等大堆数据回来的时候,是不是傻眼了?从何下手挑选差异表达基因呢?今天就先来聊聊如何看差异表达基因数据,火山图,聚类图又怎么看。1差异基因筛选方法那差异基因是如何筛选出来的呢?差异基因的筛选方法有很多,包括倍数法、T检验、F检验及SAM等。下面简单介绍一下GCBI...转载 2019-02-15 10:40:38 · 45400 阅读 · 0 评论 -
NGLView 安装与配置-交互式分子结构和轨迹查看
NGLViewNGLview 是Jupyter Notebook的小插件, 可用于交互地可视化分子结构, 可以查看分子动力学轨迹数据. 支持读取文件数据。程序的源代码可以在网上Github里查看, 同时也可以在PyPI和bioconda内获取. NGLview在服务器端采用python, 而在客户端则采用JS来实现, 与Jupyter的整合则通过ipywidgets包实现. 客户端采用N...原创 2019-10-16 18:29:50 · 5620 阅读 · 3 评论 -
[数据科学] 通过基因表达监测进行肿瘤预测
简介通过基因表达监测(DNA微阵列)对新的癌症病例进行分类,从而为鉴定新的癌症类别和将肿瘤分配到已知类别提供了一般方法。这些数据用于对患有急性髓性白血病(AML)和急性淋巴细胞白血病(ALL)的患者进行分类。代码实例导入依赖库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%mat...原创 2019-08-16 13:53:36 · 2337 阅读 · 7 评论 -
蛋白序列 | 基于深度学习的蛋白质序列家族分类
背景简介蛋白质数据集来自于结构生物信息学研究协作组织(RCSB)的蛋白质数据库(PDB)。RCSB : Research Collaboratory for Structural BioinformaticsPDB : Protein Data BankPDB是原子坐标和描述蛋白质和其他重要生物大分子的信息储存库。结构生物学家使用诸如X射线晶体学、NMR和低温电子显微术的方法来...原创 2019-09-10 11:29:22 · 6739 阅读 · 8 评论 -
力场与电荷
力场力场(Force Field, 常简写为FF)这个物理学名词听起来有点高深, 可如果理解了它的含义你就会觉得这是很自然的一个概念, 没有什么特别之处.在中学物理或者初等力学中, 研究物体的运动都是从分析其受力出发的, 可以说是以力为基础, 这也是称为力学的原因. 牛顿第二定律直接将物体的受力与其加速度联系起来, 这样只要知道了物体的受力情况, 就能计算出其运动轨迹. 在力学中, 一般将...原创 2019-09-27 22:18:09 · 2572 阅读 · 0 评论 -
化学结构信息与图论
分子图模型通常使用一种模型,在该模型中,化合物以原子为节点,键为边的图形表示,通常省略氢。节点存储信息(标签),例如原子类型、电荷、多重性和质量,而边存储键合顺序。每个都可以具有关于芳族和立体异构的信息。至于键序,最好以π电子而不是边缘的形式给出节点,以反映实际的原子轨道和三维结构。分子图通常表示为无边的无向图。具有边缘方向(存在单向路径)的图称为有向图。分子图通常是简单图。简单...原创 2019-09-29 16:10:12 · 5410 阅读 · 0 评论 -
数据科学| 蛋白向量分析
Exploring protein vector embeddings导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import manifoldfrom sklearn.metrics.p...原创 2019-10-10 12:18:29 · 1224 阅读 · 0 评论 -
心脏病预测模型(基于Python的数据挖据)
作者:Abdullah Alrhmoun该项目的目标是建立一个模型,该模型可以根据描述疾病的特征组合预测心脏病发生的概率。为了实现这一目标,作者使用了瑞士Cleveland Clinic Foundation收集的数据集。该项目中使用的数据集包含针对心脏病的14个特征。数据集显示不同水平的心脏病存在从1到4和0没有疾病。我们有303行人数据,13个连续观察不同的症状。此项目研究了不同的经典...原创 2019-04-13 21:20:00 · 17454 阅读 · 2 评论 -
Python生物信息学③提取差异基因
python做生信分析的流程使用的数据集是GSE5583,来自于2006年的基因芯片结果,该芯片目的是提取野生型和HDAC1小鼠胚胎干细胞用于Affymetrix微阵列上的差异RNA。#导入包import matplotlib.pyplot as pltimport osimport numpy as npimport pandas as pdfrom scipy import...原创 2019-03-28 20:49:07 · 10826 阅读 · 2 评论 -
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
做基因表达分析时必然会要做差异分析(DE)DE的方法主要有两种:Fold change t-testfold change的意思是样本质检表达量的差异倍数,log2 fold change的意思是取log2,这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距。Q-value,是P-value校正值,P值是统计差异的显著性的。Q值比P值更严格的一种统计。p-value...转载 2019-03-28 11:28:04 · 54323 阅读 · 0 评论 -
bcftools安装
编译安装bcftools:tar xvf bcftools-1.9.tar.bz2cd bcftools-1.9./configure --prefix=/opt/bcftools1.9makemake install编译安装Bcftools:gedit ~/.bashrc #Samtools1.9export PATH=/opt/bcftools1.9/bin...原创 2019-02-23 17:47:11 · 6257 阅读 · 3 评论 -
氨基酸周期表
原创 2019-02-23 16:25:12 · 3495 阅读 · 0 评论 -
Samtools安装及常用命令详解
Samtools是一个用于操作sam和bam文件的工具合集。包含有许多命令。以下是常用命令的介绍下载安装包:http://www.htslib.org/download/安装依赖:yum install bzip2-devel ncurses-libs ncurses-devel xz-devel zlib-devel编译安装Samtools:tar xvf samto...原创 2019-02-23 15:38:41 · 6102 阅读 · 0 评论 -
Jupyter Notebook实现直接调用R
学习了python,已经能够满足大部分需求了。但是最近学习生息和组学数据分析,以后的论文是必须要用R语言来写的。那就学吧。因为之前一直在用jupyter notebook来写分析报告,所以我就想也用jupyter写R,这样子就很方便了。高兴的是确实可以在jupyter中使用R,安装基础包repr, IRdisplay, evaluate, crayon, pbdZMQ, devtool...原创 2019-01-23 22:00:03 · 1929 阅读 · 0 评论 -
生物信息学数据库分类概览
生物与计算机的结合让生物进入大数据时代,为方便管理各种生物数据,科学家们开发了各式各样的生物数据库。了解与自己研究领域相关的数据库,并加以利用可能会使研究工作得到事半功倍的效果。在此将常用数据库按照以下分类方式大致整理了一下,也方便检索。1. Meta databases元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以...原创 2018-11-24 18:55:07 · 15660 阅读 · 6 评论 -
Biopython:Fasta格式转CSV格式
Fasta格式转CSV格式#载入数据meta=[]sequence=[]seq = ('ls_orchid.fasta')for seq_record in SeqIO.parse(seq, "fasta"): meta.append(str(seq_record.id)) sequence.append(str(seq_record.seq))#print(...原创 2018-09-08 19:06:45 · 3079 阅读 · 0 评论 -
statTarget-基于QC样本的代谢组学数据校正
为什么数据质量控制重要呢?质量控制是生物分析的基本概念之一,用在保证组学测定的数据的重复性和精确性。由于色谱系统与质谱直接与样品接触, 随着分析样品的增多,色谱柱和质谱会逐步的污染,导致信号的漂移。通过重复使用同一个质控样本来跟踪整个数据采集过程的行为, 已经被大多数的分析化学领域专家推荐和使用。质控样本被用于评估整个质谱数据在采集过程中的信号漂移, 这些漂移进一步能够被精确的算法所识别...原创 2019-03-19 22:40:56 · 4023 阅读 · 1 评论 -
Python生物信息学⑥绘制热图及火山图
Python生物信息学⑥绘制热图及火山图Python生物信息学③提取差异基因通过上Python生物信息学③提取差异基因得到了该数据集的差异分析的两个关键参数,1.差异倍数(foldchange)以及2.差异的P值。本篇目的是得到满足差异倍数和差异P值的基因,同时进行可视化(包括差异分析常见的火山图和热图)。绘制火山图(1)第一步制作差异分析结果数据框genearray = n...原创 2019-03-30 22:42:31 · 14758 阅读 · 4 评论 -
Python生物信息学⑤DNA转录RNA
Python实现DNA转录RNAwith open("rosalind_rna.txt") as f: dna_fragment = f.read().rsplit()rna_fragment = ''.join("U" if x=="T" else x for x in dna_fragment[0])rna_fragment原创 2019-03-30 18:47:39 · 2581 阅读 · 0 评论 -
Python生物信息学④计算DNA核苷酸A、C、G、T出现次数
计算DNA核苷酸A、C、G、T出现次数with open("rosalind_dna.txt") as f: fragment_of_dna = f.read()fragment_of_dna.rsplit()print(fragment_of_dna.count("A"), fragment_of_dna.count("C"), fragment_...原创 2019-03-30 18:44:56 · 3659 阅读 · 1 评论 -
Python生物信息学②从PDB文件中提取蛋白序列
环境OS version : Win10 x64python_version : Python 3.6.5实例代码aa_codes = { 'ALA':'A', 'CYS':'C', 'ASP':'D', 'GLU':'E', 'PHE':'F', 'GLY':'G', 'HIS':'H', 'LYS':'K', 'ILE':'I', '...原创 2019-03-24 23:23:05 · 8822 阅读 · 0 评论 -
KEGG数据库
KEGG的简介KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。KEGG ...原创 2019-03-24 22:35:18 · 5120 阅读 · 0 评论 -
Python生物信息学①将RNA序列翻译成蛋白质序列。
环境OS version : Win10 x64python_version : Python 3.6.5 实例代码codon_table = { 'GCU':'A', 'GCC':'A', 'GCA':'A', 'GCG':'A', 'CGU':'R', 'CGC':'R', 'CGA':'R', 'CGG':'R', 'AGA':'R', '...原创 2019-03-24 21:48:07 · 7914 阅读 · 4 评论 -
NGS之数据格式
生物信息中常见的几种数据格式有:fasta、fastq、bam、sam、vcf、bed、gff。参考:http://www.biotrainee.com/thread-42-1-1.htmlFASTQ参考:https://en.wikipedia.org/wiki/FASTQ_formatfastq格式是文本格式。它有对应序列字符的质量分数,出于简洁的目的用ASCII字符来表示,所以...原创 2019-03-16 21:44:40 · 2025 阅读 · 0 评论 -
代谢组学数据分析的统计学方法综述
谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。代谢组学数据的特点代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源刺激或基因修饰后其...转载 2019-03-16 21:02:36 · 7170 阅读 · 0 评论 -
BioPython安装与入门
BioPython简介Biopython工程是一个使用Python来开发计算分子生物学工具的国际团体。(http://www.python.org) Python是一种面向对象的、解释型的、灵活的语言,在计算机科学中日益流行。Python易学,语法明晰,并且能很容易的使用以C,C++或 者FORTRAN编写的模块实现扩展。Biopython官网(http://www.biopython.o...原创 2018-08-31 13:09:22 · 39945 阅读 · 2 评论