数据集:
训练集(82943条记录)建立模型,基于汽车品牌、车系、问题内容与问答对话的文本,输出建议报告文本。
测试集(20000条记录)使用训练好的模型,输出建议报告的结果文件。
代码结构
/QA-master
./datasets
./seq2seq_tf2 #baseline: 以RNN(cell为LSTM/GRU)为编解码器的Seq2Seq模型。
./seq2seq_pgn_tf2 #改进1: 使用了基于Seq2Seq的PGN模型。
./seq2seq_transformer_pgn_tf2 #改进2: 使用了transformer作为编解码器的PGN-net。
./seq2seq_bertsum
./utils
项目文件说明:
baseline :
seq2seq_pgn_tf2 文件下是使用tensorflow2.0搭建完成的两个模型,一个是baseline版本的seq2seq模型,另外一个是基于seq2seq的Pointer-Generator Networks(PGN)模型。
seq2seq_pgn_tf2文件下是使用tensorflow2.0搭建完成的两个模型,
一个是baseline版本的seq2seq模型,另外一个是基于seq2seq的Pointer-Generator Networks(PGN)模型。
该博客总结了一个基于汽车问答数据集的模型训练项目。训练集包含82943条记录,测试集有20000条记录。项目采用TensorFlow 2.0实现,包括基线的Seq2Seq模型和两个改进模型:Pointer-Generator Networks (PGN)以及结合Transformer的PGN模型。代码结构清晰,方便理解。
267





