药物发现中的靶点蛋白描述符、虚拟筛选模型评估与聚类方法
1. 靶点蛋白描述符
在整合信息时,一个关键问题是如何表示蛋白质。Rifaioglu及其同事探讨了多种靶点蛋白描述符,将其分为序列组成、物理化学性质、相似性度量、拓扑性质、几何特征和功能位点等类别。
对于定量构效关系(QSAR)建模,蛋白质中最相关的区域无疑是结合位点。一种方法是构建基于序列的描述符,其会根据结合位点的氨基酸而变化。这种方法适用于创建模型来预测具有不同但可比较结合位点的蛋白质家族,例如激酶,它们在ATP结合位点具有显著的保守性。
为实现这一点,需要对不同的建模靶点进行比对,即展示每个靶点结合位点中每个空间位置由哪个氨基酸占据的映射。高质量的比对可从如激酶 - 配体相互作用指纹和结构数据库(KLIFS)等来源获取。利用这些信息,可以通过连接表示结合位点中每个氨基酸的短向量来构建描述符。氨基酸本身可以用多种方式表示,其中Z - 尺度5描述符是一个有竞争力的选择,它通过主成分分析将氨基酸的26个物理化学性质值浓缩为每个氨基酸的5个数字。
这些描述符在以往的工作中已取得良好效果。例如,Giblin等人构建了多种模型来预测溴结构域蛋白的抑制作用,并仔细比较了有无此类靶点信息的模型,发现他们的蛋白质 - 化学计量学(PCM)模型大大优于仅基于配体的替代模型。虽然在PCM背景下使用神经网络的工作仍然较少,但Lenselink等人观察到,即使使用基于一级序列区域平均物理化学性质的非常粗略的描述符,他们的人工神经网络(ANN)性能也有所提高。此外,使用蛋白质3D表示的更复杂描述符也开始被探索,如Subramanian等人通过使用基于物理的结合位点3D空间描述,为95种激酶构建了准确的QSAR模型。
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



