17、基于文本的问答系统构建指南

基于文本的问答系统构建指南

1. 从文本中提取答案

在构建问答(QA)系统时,首要任务是找到一种方法,将潜在答案识别为客户评论中的文本片段。例如,若问题是 “Is it waterproof?”,评论段落为 “This watch is waterproof at 30m depth”,则模型应输出 “waterproof at 30m”。为实现这一目标,需要掌握以下几点:
- 构建有监督学习问题。
- 对用于问答任务的文本进行分词和编码。
- 处理超出模型最大上下文大小的长段落。

1.1 跨度分类

最常见的从文本中提取答案的方法是将问题构建为跨度分类任务,其中答案跨度的起始和结束标记作为模型需要预测的标签。由于训练集相对较小(仅有 1295 个示例),一个不错的策略是从在大规模问答数据集(如 SQuAD)上已经过微调的语言模型开始。这类模型通常具有较强的阅读理解能力,可作为构建更精确系统的良好基线。

可以通过访问 Hugging Face Hub 并在 “Models” 标签中搜索 “squad” 来找到一系列抽取式问答模型。选择模型时,通常取决于多种因素,如语料库是单语言还是多语言,以及在生产环境中运行模型的限制。以下是一些可作为基础的模型:
| Transformer | 描述 | 参数数量 | SQuAD 2.0 上的 F1 分数 |
| — | — | — | — |
| MiniLM | BERT-base 的蒸馏版本,保留 99% 的性能,速度快两倍 | 66M | 79.5 |
| RoBERTa-base | RoBERTa 模型比 BERT 对应模型性能更好,可使用单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值