【人工智能】Transformers之Pipeline（十五）：总结（summarization）

置顶

LDG_AGI

已于 2024-09-10 10:35:14 修改

阅读量2.6k

点赞数 122

分类专栏： Pipeline 文章标签：人工智能深度学习机器学习自然语言处理 transformer bert kubernetes

于 2024-09-04 20:39:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_48007632/article/details/141900321

版权

2.4.1 pipeline对象实例化参数

一、引言

pipeline（管道）是huggingface transformers库中一种极简方式使用大模型推理的抽象，将所有大模型分为音频（Audio）、计算机视觉（Computer vision）、自然语言处理（NLP）、多模态（Multimodal）等4大类，28小类任务（tasks）。共计覆盖32万个模型

今天介绍NLP自然语言处理的第三篇：总结（summarization），在huggingface库内有2000个总结（summarization）模型。

二、总结（summarization）

2.1 概述

摘要是在保留重要信息的同时生成文档的较短版本的任务。模型可以从原始输入中提取文本，同时可以生成全新的文本！

2.2 BERT与GPT的结合—BART

BART 是一个由facebook研发的Transformer 编码器-编码器 (seq2seq) 模型，具有双向 (类似 BERT) 编码器和自回归 (类似 GPT) 解码器。BART 通过 (1) 使用任意噪声函数破坏文本，以及 (2) 学习模型来重建原始文本进行预训练。
BART 在针对文本生成（例如摘要、翻译）进行微调时特别有效，但它也适用于理解任务（例如文本分类、问答）。这个特定的检查点已在 CNN Daily Mail（一个庞大的文本摘要对集合）上进行了微调。

2.3 应用场景

自动文摘：使用自然语言处理（NLP）技术，从长篇文章中提取出最重要的段落或句子。

文本分类：根据文本内容对其进行分类，如新闻、博客、产品描述等。

信息检索：通过总结来帮助用户快速找到相关信息。

智能问答：使用总结技术来生成问题的答案。

文本分析：从大量文本数据中提取出有价值的信息和知识。

2.4 pipeline参数

2.4.1 pipeline对象实例化参数

model（PreTrainedModel或TFPreTrainedModel）— 管道将使用其进行预测的模型。对于 PyTorch，这需要从PreTrainedModel继承；对于 TensorFlow，这需要从TFPreTrainedModel继承。

tokenizer ( PreTrainedTokenizer ) — 管道将使用 tokenizer 来为模型编码数据。此对象继承自 PreTrainedTokenizer。

modelcard（str或ModelCard，可选）— 属于此管道模型的模型卡。

framework（str，可选）— 要使用的框架，"pt"适用于 PyTorch 或"tf"TensorFlow。必须安装指定的框架。

tas