Datawhale AI 夏令营 | 物质科学赛道Task2 | RNN/AI4Chem

目录

前置知识

AI for chemistry

SMILES编码为分子指纹

循环神经网络RNN(Recurrent Neural Network)

baseline实战

优化思路和调参尝试

阅读文献笔记


前置知识

AI for chemistry

①可以使用手动的特征工程对已有数据进行编码、特征提取,例如task1中将SMILES表达式编码为分子指纹。

②深度神经网络可以学习特征,可以用来替代前期的手动特征工程。学习教程中提到了几个常见的例子:word2vec:对分子进行向量化,促进更多的新型分子指纹出现;基于seq2seq模型学习表示为序列类型的化学数据;基于diffusion重建分子三维空间结构等等。

SMILES编码为分子指纹

SMILES表示方法缺点:①同一个物质可能有多种表示方法②空间关系无法完全表达(例如对映异构)

分子指纹是一个具有固定长度的位向量,相当于把分子向量化,每个维度代表某个基团,对应维度是1代表该分子有这个基团,若为0则没有这个基团。分子指纹的维度常常是几千,例如task1里面的分子指纹,是4个2000维度的分子指纹进行拼接得到一个维度8000的位向量,是十分庞大的数据量。所以可以采用一些降维方式对数据进行处理类似NLP中的Bag of Word

分子指纹仍然无法准确反应分子真正的空间结构,例如苯环上基团的邻间对关系,通过深度学习可以促进更多分子指纹表示方法出现。类似NLP中word2vec方法

学习教程拓展:使用图数据(graph

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值