【AI实践】个人免费数学老师系列之（二）：自动切题【目标检测】

AI趣栈

已于 2024-10-28 11:11:32 修改

阅读量1k

点赞数 20

分类专栏： AI数学老师 AI实践 AI知识文章标签：人工智能目标检测计算机视觉

于 2024-10-28 11:06:18 首次发布

本文链接：https://blog.youkuaiyun.com/vison20080808/article/details/143288440

版权

AI实践同时被 3 个专栏收录

18 篇文章

订阅专栏

AI知识

18 篇文章

订阅专栏

AI数学老师

3 篇文章

订阅专栏

出发点：承接上一篇 【AI实践】个人免费数学老师系列之（一）：系统概述，本篇介绍识别流程的第一步。
顺带总结科普一下当下大模型的核心架构Transformer、CV领域目标检测算法等概念。
另将该自动切题方案代码开源。

0、提纲：

核心概念
项目开源
参考资料

1、核心概念

目标检测（Object detection）是计算机视觉（Computer Vision，CV）中的一类重要任务（Task），旨在识别图像中的物体并确定其位置（“what objects are located at where”）。

本项目任务为，识别&框定图像中每道题目所在的位置。检测依据为题号、版面分布等特征。

在深度学习时代，几乎所有现代目标检测器都共享相同的范式：用于特征提取的主干（Backbone）、用于整合不同层次特征的脖子（Neck）、用于定位与分类任务的检测头（Head）。

1.1 主干（Backbone）

Transformer模型首次在2017年Google的论文《Attention Is All You Need》中被提出。2018年其引申的变体BERT模型引领自然语言处理（NLP）的各大榜单。

当下最成功的大模型（LLM、例如OpenAI o1、Claude3.5、LLama3.2）都是Transformer Decoder架构。

Transformer的核心是自注意力机制（上图公式）。它能够更好地捕获全局的上下文信息，这也是Transformer有别于其它特征捕捉机制（如CNN、RNN）的关键所在。

以上图为例，我们想要翻译“The animal didn't cross the street because it was too tired”。当Transformer在第5层编码器编码“it”时的状态，可视化之后显示it有一部分注意力集中在了“The animal”上，并且把这两个词的信息融合到了"it"中。

Transformer最初是为 NLP 任务设计的（出于自然语言天然的时序属性），但该架构已被成功扩展到CV和多模态领域。 本方案采用微软2021年开源的Swin-Transformer模型：