- 博客(7)
- 收藏
- 关注
原创 【DataWhale AI 夏令营】物质科学赛道:催化反应产率预测——task1
其中 Reactant1 , Reactant2 , Product , Additive , Solvent 字段中为对应物质的SMILES字符串,Yield字段为目标字段,是经过归一化的浮点数。rdkit中一众函数:与pandas搭配使用,负责处理本题的反应底物(训练数据中的Reactant1, Reactant2)、产物(Product)、添加剂(Additive)、溶剂(Solvent)这些化学信息。mfgen:将从SMILES中提取的数据转化为位向量形式的Morgan分子指纹,方便处理。
2024-07-27 23:51:35
1887
原创 【DataWhale AI 夏令营】NLP:基于术语词典干预的机器翻译挑战赛——task3
它的作用是在翻译的过程当中,为了生成合理的目标语言序列需要观测待翻译的源语言序列是什么。解码器端以自回归的方式生成目标语言文本,即在每个时间步 t ,根据编码器端输出的源语言文本表示,以及前 t-1 个时刻生成的目标语言文本,生成当前时刻的目标语言单词。而解码端则负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被观测的,因此这一额外增加的掩码是用来掩盖后续的文本信息,以防模型在训练阶段直接看到后续的文本序列进而无法得到有效地训练。
2024-07-20 21:30:43
665
原创 【DataWhale AI 夏令营】机器学习:电力需求预测挑战赛——task3
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。build_model函数用于构建LSTM模型。模型包括一个LSTM层,用于学习时间序列数据的特征,以及一个重复向量层RepeatVector,用于复制上一个LSTM层的输出以供下一个LSTM层使用。
2024-07-20 13:21:32
1801
原创 【DataWhale AI 夏令营】NLP:基于术语词典干预的机器翻译挑战赛——task2
这对于较短的源语言文本没有什么问题,但随着文本序列长度的逐渐加长,单一的一个向量 h{m} 可能不足以承载源语言序列当中的所有信息。解码器的结构基本上和编码器是一致的,在基于循环神经网络的翻译模型中,解码器只比编码器多了输出层,用于输出每个目标语言位置的单词生成概率,而在基于自注意力机制的翻译模型中,除了输出层,解码器还比编码器多一个编码解码注意力子层,用于帮助模型更好地利用源语言信息。传统观点把翻译分为“信”、“达”、“雅”三个层次,而忠诚度体现的是一种“信”的思想,而流畅度体现的是一种“达”的思想。
2024-07-17 22:12:07
838
原创 【DataWhale AI 夏令营】机器学习:电力需求预测挑战赛——task2
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识。即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。
2024-07-16 23:31:38
520
原创 【DataWhale AI 夏令营】NLP:基于术语词典干预的机器翻译挑战赛——task1
机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本。机器翻译的发展可以追溯到20世纪50年代,经历了从基于规则的方法、统计方法到深度学习方法的演变过程。[图片]
2024-07-14 15:33:30
1710
原创 【DataWhale AI 夏令营】机器学习:电力需求预测挑战赛——task1
【DataWhale学习笔记】机器学习——电力需求预测挑战赛第一天:跑通baseline
2024-07-13 19:18:59
203
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人