问题
1.
根据文件“
Molecular_Descriptor.xlsx
”和“
ERα_activity.xlsx
”提供的数
据,针对
1974
个化合物的
729
个分子描述符进行变量选择,根据变量对生物活
性影响的重要性进行排序,并给出前
20
个对生物活性最具有显著影响的分子描
述符(即变量),并请详细说明分子描述符筛选过程及其合理性。
问题一难度较低,主要是找出对生物活性最具有显著影响的分子描述符,具有影
响意味着该分子描述符与生物活性的相关性越高,因此可以构建相关性分析模型
来分别计算各分子描述符与生物活性的关系,找出相关性最大的
20
个变量即可。
在
matlab
中使用
corrcoef
函数可以求两个序列的相关度
corrcoef
(
x
,
y
)表示序列
x
和序列
y
的相关系数,得到的结果是一个
2*2
矩阵,
其中对角线上的元素分别表示
x
和

本文探讨了如何基于分子描述符对生物活性进行变量选择和预测模型构建。首先,通过相关性分析确定了对生物活性影响最大的前20个分子描述符,然后利用遗传算法优化的神经网络模型,对这20个描述符建立非线性拟合关系,以预测化合物的ERα生物活性。实验中,对test表中的50个化合物进行了IC50值和pIC50值的预测,实现了数据驱动的药物研发辅助。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



