目录
循环神经网络RNN(Recurrent Neural Network)
前置知识
AI for chemistry
①可以使用手动的特征工程对已有数据进行编码、特征提取,例如task1中将SMILES表达式编码为分子指纹。
②深度神经网络可以学习特征,可以用来替代前期的手动特征工程。学习教程中提到了几个常见的例子:word2vec:对分子进行向量化,促进更多的新型分子指纹出现;基于seq2seq模型学习表示为序列类型的化学数据;基于diffusion重建分子三维空间结构等等。
SMILES编码为分子指纹
SMILES表示方法缺点:①同一个物质可能有多种表示方法②空间关系无法完全表达(例如对映异构)
分子指纹是一个具有固定长度的位向量,相当于把分子向量化,每个维度代表某个基团,对应维度是1代表该分子有这个基团,若为0则没有这个基团。分子指纹的维度常常是几千,例如task1里面的分子指纹,是4个2000维度的分子指纹进行拼接得到一个维度8000的位向量,是十分庞大的数据量。所以可以采用一些降维方式对数据进行处理。类似NLP中的Bag of Word
分子指纹仍然无法准确反应分子真正的空间结构,例如苯环上基团的邻间对关系,通过深度学习可以促进更多分子指纹表示方法出现。类似NLP中word2vec方法
学习教程拓展:使用图数据(graph