lwj-2206-优快云博客

原创 Datawhale AI夏令营 AI+化学 task3

循环神经网络的序列到序列建模方法，在建模文本长程依赖方面都存在一定的局限性。循环神经网络：由于所有的前文信息都蕴含在一个隐向量里面，这会导致随着序列长度的增加，编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。卷积神经网络：受限的上下文窗口在建模长文本方面天然地存在不足。如果需要关注长文本，就需要多层的卷积操作。图1 循环神经网络中，每个词都会依赖上一个词完全通过注意力机制完成对序列的全局依赖的建模。并且，这是一种可以高并行的结构，大大增加了计算效率。

2024-08-03 14:17:55 550

原创 Datawhale AI夏令营 AI+化学 task2

# import matplotlib.pyplot as plt ## 数据处理部分 # tokenizer，鉴于SMILES的特性，这里需要自己定义tokenizer和vocab # 这里直接将smiles str按字符拆分，并替换为词汇表中的序号 class Smiles_tokenizer(): def __init__(self, pad_token, regex, vocab_file, max_length): self.pad_token = pad_token

2024-07-29 23:40:24 1382

原创 DataWhale AI夏令营 AI+化学 task1

然后将Reactant1,Reactant2,Product,Additive,Solvent字段的向量拼接到一起，组成一个更长的向量。此步先要完成特征提取，具体来说，有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。是一个非常广泛使用的开源机器学习库，基于Python，建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。API设计亲民，整个使用简单易上手，非常适合作为机器学习入门的工具。

2024-07-26 12:46:58 1567