DataWhale AI + 物质科学 Task02 笔记

代码内容分析-笔记

(嗯?刚开始还有个0点几分,然后改了一下直接变负分了嘛?但是还是该写写该改改)

经过我的观察和分析,发现其代码内容包括以下三个方面

        1.数据处理与特征提取

        2.RNN模型的定义与训练

        3.模型的评估与预测

下面尝试进行这三个方面的分析:

一、数据处理与特征提取

主要代码:

class Smiles_tokenizer():
    def __init__(self, pad_token, regex, vocab_file, max_length):
        self.pad_token = pad_token
        self.regex = regex
        self.vocab_file = vocab_file
        self.max_length = max_length

        with open(self.vocab_file, "r") as f:
            lines = f.readlines()
        lines = [line.strip("\n") for line in lines]
        vocab_dic = {}
        for index, token in enumerate(lines):
            vocab_dic[token] = index
        self.vocab_dic = vocab_dic

    def _regex_match(self, smiles):
        regex_string = r"(" + self.regex + r"|"
        ...

其中主要包括两点:

1.Tokenization

        使用正则表达式将SMILES字符串分割成单独的字符或子字符串,并将这些字符映射到词汇表中的索引。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值