- 博客(2)
- 收藏
- 关注
原创 NLP——机器翻译
我们先定义一些特殊符号。其中“<pad>”(padding)符号用来添加在较短序列后,直到每个序列等长,而“<bos>”和“<eos>”符号分别表示序列的开始和结束。运行结果:1.5.0 cpu接着定义两个辅助函数对后面读取的数据进行预处理。为了演示方便,我们在这里使用一个很小的法语—英语数据集。在这个数据集里,每一行是一对法语句子和它对应的英语句子,中间使用'\t'隔开。在读取数据时,我们在句末附上“<eos>”符号,并可能通过添加“<pad>”符号使每个序列的长度均为。
2024-06-23 23:55:51
1054
原创 NLP——应用多层感知器(MLP)和卷积神经网络(CNN)进行姓氏分类任务
我们将NLP应用于将姓氏分类到其原籍国的任务。从公开观察到的数据推断人口统计信息(如国籍)具有从产品推荐到确保不同人口统计用户获得公平结果的应用。人口统计和其他自我识别信息统称为“受保护属性”。“在建模和产品中使用这些属性时,必须小心。”我们首先对每个姓氏的字符进行拆分,并像对待“示例:将餐馆评论的情绪分类”中的单词一样对待它们。除了数据上的差异,字符层模型在结构和实现上与基于单词的模型基本相似.姓氏数据集,它收集了来自18个不同国家的10,000个姓氏,这些姓氏是从互联网上不同的姓名来源收集的。
2024-06-22 20:16:07
1452
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅