引言
这是论文《TamGen:利用化学语言模型进行药物设计的目标感知分子生成》的实现内容。
我们的实现基于fairseq-v0.8.0构建。
安装
conda create -n TamGen python=3.9
conda activate TamGen
bash setup_env.sh
数据集
为 CrossDocked 数据集构建训练数据
步骤 1:如果你不在 “TamGen” 仓库的 “data” 文件夹中,请先切换到该文件夹。
步骤 2:运行 “bash build_crossdocked_dataset.sh” 命令。
在 “data” 文件夹中运行 “build_crossdocked_dataset.sh” 之后,你应该会得到如下文件结构:
data
├── build_crossdocked_dataset.sh
└── crossdocked
├── bin
│ ├── dict.m1.txt
│ ├── dict.tg.txt
│ ├── src
│ ├── structure-files-test
│ ├── structure-files-train
│ ├── structure-files-valid
│ ├── test-coordinates.orig.pkl
│ ├── test-coordinates.pkl
│ ├── test-info.csv
│ ├── test.tg-m1.m1.bin
│ ├── test.tg-m1.m1.idx
│ ├── test.tg-m1.tg.bin
│ ├── test.tg-m1.tg.idx
│ ├── train-coordinates.orig.pkl
│ ├── train-coordinates.pkl
│ ├── train-info.csv
│ ├── train.tg-m1.m1.bin
│ ├── train.tg-m1.m1.idx
│ ├── train.tg-m1.tg.bin
│ ├── train.tg-m1.tg.idx
│ ├── valid-coordinates.orig.pkl
│ ├── valid-coordinates.pkl
│ ├── valid-info.