- 博客(6)
- 收藏
- 关注
原创 Datawhale AI夏令营 AI+化学 task3
循环神经网络的序列到序列建模方法,在建模文本长程依赖方面都存在一定的局限性。循环神经网络:由于所有的前文信息都蕴含在一个隐向量里面,这会导致随着序列长度的增加,编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。卷积神经网络:受限的上下文窗口在建模长文本方面天然地存在不足。如果需要关注长文本,就需要多层的卷积操作。图1 循环神经网络中,每个词都会依赖上一个词完全通过注意力机制完成对序列的全局依赖的建模。并且,这是一种可以高并行的结构,大大增加了计算效率。
2024-08-03 14:17:55
550
原创 Datawhale AI夏令营 AI+化学 task2
# import matplotlib.pyplot as plt ## 数据处理部分 # tokenizer,鉴于SMILES的特性,这里需要自己定义tokenizer和vocab # 这里直接将smiles str按字符拆分,并替换为词汇表中的序号 class Smiles_tokenizer(): def __init__(self, pad_token, regex, vocab_file, max_length): self.pad_token = pad_token
2024-07-29 23:40:24
1382
原创 DataWhale AI夏令营 AI+化学 task1
然后将Reactant1,Reactant2,Product,Additive,Solvent字段的向量拼接到一起,组成一个更长的向量。此步先要完成特征提取,具体来说,有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。是一个非常广泛使用的开源机器学习库,基于Python,建立在NumPy、SciPy、Pandas和Matplotlib等数据处理和分析的库之上。API设计亲民,整个使用简单易上手,非常适合作为机器学习入门的工具。
2024-07-26 12:46:58
1567
原创 Datawhale AI 夏令营 task03
在task02的基础上使用优化方案在数据挖掘比赛中,总是最终制胜法宝,去思考什么信息可以帮助我们提高预测精准度,然后将其转化为特征输入到模型。间存在很大的差异,预测结果也会不一样,比赛的过程就是不断的实验和试错的过程,通过不断的实验寻找最佳模型,同时帮助自身加强模型的理解能力。
2024-07-21 01:57:19
300
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人