task6 基于深度学习的文本分类

最新推荐文章于 2022-11-01 17:01:34 发布

原创最新推荐文章于 2022-11-01 17:01:34 发布 · 148 阅读

0 ·

CC 4.0 BY-SA版权

笔记专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种基于Bert的文本分类方法，详细讲解了如何使用Google的Tensorflow BERT源代码进行预训练，包括创建训练数据、构建词表、分词及处理tfrecord格式等关键步骤。

部署运行你感兴趣的模型镜像

基于Bert的文本分类
Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器。class WhitespaceTokenizer(object): “”“WhitespaceTokenizer with vocab.”"" def init(self, vocab_file): self.vocab = load_vocab(vocab_file) self.inv_vocab = {v: k for k, v in self.vocab.items()} def tokenize(self, text): split_tokens = whitespace_tokenize(text) output_tokens = [] for token in split_tokens: if token in self.vocab: output_tokens.append(token) else: output_tokens.append("[UNK]") return output_tokens def convert_tokens_to_ids(self, tokens): return convert_by_vocab(self.vocab, tokens) def convert_ids_to_tokens(self, ids): return convert_by_vocab(self.inv_vocab, ids)预训练由于去除了NSP预训练任务，因此将文档处理多个最大长度为256的段，如果最后一个段的长度小于256/2则丢弃。每一个段执行按照BERT原文中执行掩码语言模型，然后处理成tfrecord格式。def create_segments_from_document(document, max_segme

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型