从零开始 NLP:使用序列到序列网络和注意力实现翻译

pytorch官方例子学习心得

1、具体任务:
运用seq2seq模型实现法语和英语互翻
2、官方项目连接

3、项目流程:

  • 3.1 准备数据

    • 3.1.1 准备原始数据:读取下载好的数据
      原始数据样式

    • 3.1.2 读取下载好的数据

      • 3.1.2.1 生成语言训练对 pairs

        例如: ['va !', 'go .']  = [被翻译词,翻译词]
        解释:列表里面一个元素为原文中的一行,英语和法语通过空格(\t )分开
        

        ① 标准化处理读入的数据(lines)—>

        * 字母转小写、截取掉字符中的空格
        * unicode编码转化为ascii编码
        * 通过正则匹配 ---> 拆分字母和标点符号
        * 处理后数据:len(pairs)=135842 ,pairs[:2]=[['go .', 'va !'], ['run !', 'cours !']]
        

        ② 为了快速训练,根据条件筛选出可训练的数据

        条件1:最大长度为 10 个单词(包括结尾标点符号)
        条件2:筛选为转换为英文以"i am"或"he is"等形式的句子
        筛选后:10599 sentence pairs
        
    • 3.1.2.2 初始化被翻译语言的类和翻译语言的类

        该语言的名称:input_lang.name = 'fra' 法语
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值