pytorch官方例子学习心得
1、具体任务:
运用seq2seq模型实现法语和英语互翻
2、官方项目连接
3、项目流程:
-
3.1 准备数据
-
3.1.1 准备原始数据:读取下载好的数据
-
3.1.2 读取下载好的数据
-
3.1.2.1 生成语言训练对 pairs
例如: ['va !', 'go .'] = [被翻译词,翻译词] 解释:列表里面一个元素为原文中的一行,英语和法语通过空格(\t )分开
① 标准化处理读入的数据(lines)—>
* 字母转小写、截取掉字符中的空格 * unicode编码转化为ascii编码 * 通过正则匹配 ---> 拆分字母和标点符号 * 处理后数据:len(pairs)=135842 ,pairs[:2]=[['go .', 'va !'], ['run !', 'cours !']]
② 为了快速训练,根据条件筛选出可训练的数据
条件1:最大长度为 10 个单词(包括结尾标点符号) 条件2:筛选为转换为英文以"i am"或"he is"等形式的句子 筛选后:10599 sentence pairs
-
-
3.1.2.2 初始化被翻译语言的类和翻译语言的类
该语言的名称:input_lang.name = 'fra' 法语
-