
torchtext
文章平均质量分 61
torchtext的一些方法介绍
HMTT
有任何问题,可以使用QQ824626339联系本人,博客私信不常看
展开
-
torchtext.vocab
class Vocab功能:用于创建字典和应用字典函数:__contains__(token: str) → bool功能:用于判断传入的词语是否存在于词典中。参数:token:字符串。需要判断的词语。返回值:布尔值。传入单词是否在词典中__getitem__(token: str) → int功能:获得传入单词在词典中的索引。参数:token:字符串。需要获得索引的词语。返回值:整型。对应的索引。__init__(vocab)功能:构造函数,创建Vocab实原创 2021-10-16 19:57:47 · 7385 阅读 · 0 评论 -
torchtext.data.utils
get_tokenizer(tokenizer, language=‘en’)功能:使用分词器对句子进行分词。参数:tokenizer:分词器名称。如果传入None,功能相当于simple_space_split(),不会分割标点符号。如果传入"basic_english",则会将字母转为小写并按空格分割,会分割标点符号。如果传入可调用函数,则会调用并返回相应结果。如果传入分词库名称,则会返回相应的结果,分词库有spacy、moses、toktok、revotk,subword等。l原创 2021-10-15 21:24:11 · 762 阅读 · 0 评论 -
torchtext.data.functional
custom_replace(replace_pattern)功能:用于按规则对文本进行替换。参数:replace_pattern:替换规则列表,可使用正则表达式。样例:from torchtext.data.functional import custom_replacecustom_replace_transform = custom_replace([(r'[Se]', '#'), (r'\s+', '_')])list_a = ["Sentencepiece encode aS原创 2021-10-15 21:23:19 · 254 阅读 · 0 评论