如何给模型加入先验知识

原创

于 2025-09-10 13:47:53 发布 · 693 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

如何给模型加入先验知识

来源丨https://zhuanlan.zhihu.com/p/188572028端到端的深度神经网络虽然能够自动学习到一些可区分度好的特征，但是往往会拟合到一些非重要特征，导致模型会局部坍塌到一些不好的特征上面。本文通过一个简单的鸟类分类案例来总结了五个给模型加入先验信息的方法。

模型加入先验知识的必要性

端到端的深度神经网络是个黑盒子，虽然能够自动学习到一些可区分度好的特征，但是往往会拟合到一些非重要特征，导致模型会局部坍塌到一些不好的特征上面。常常一些人们想让模型去学习的特征模型反而没有学习到。为了解决这个问题，给模型加入人为设计的先验信息会让模型学习到一些关键的特征。下面就从几个方面来谈谈如何给模型加入先验信息。为了方便展示，我这边用一个简单的分类案例来展示如何把先验知识加入到一个具体的task中。我们的task是在所有的鸟类中识别出一种萌萌的鹦鹉，这中鹦鹉叫鸮(xiāo)鹦鹉，它长成下面的样子：鸮(xiāo)鹦鹉这种鸟有个特点：就是它可能出现在任何地方，但就是不可能在天上，因为它是世界上唯一一种不会飞的鹦鹉(不是唯一一种不会飞的鸟)。好，介绍完task的背景，咱们就可以分分钟搭建一个端到端的分类神经网络，可以选择的网络结构可以有很多，如resnet, mobilenet等等，loss往往是一个常用的分类Loss，如交叉熵，高级一点的用个focal loss等等。确定好了最优的数据(扰动方式)，网络结构，优化器，学习率等等这些之后，往往模型的精度也就达到了一个上限。然后你测试模型发现，有些困难样本始终分不开，或者是一些简单的样本也容易分错。这个时候如果你还想提升网络的精度，可以通过给模型加入先验的方式来进一步提升模型的精度。

基于pretrain模型给模型加入先验

给模型加入先验，大家最容易想到的是把网络的weight替换成一个在另外一个任务上pretrain好的模型weight。经过的预训练的模型(如ImageNet预训练)往往已经具备的识别到一些基本的图片pattern的能力，如边缘，纹理，颜色等等，而识别这些信息的能力是识别一副图片的基础。如下图所示：但这些先验信息都是一些比较general的信息，我们是否可以加入一些更加high level的先验信息呢。

基于输入给模型加入先验

假如你有这样的一个先验：你觉得鸮鹦鹉的头是一个区别其他它和鸟类的重要部分，也就是说相比于身体，它的头部更能区分它和其他鸟类。这时怎么让网络更加关注鸮鹦鹉的头部呢。这时你可以这样做，把整个鸮鹦鹉和它的头部作为一个网络的两路输入，在网咯的后端再把两路输入的信息融合。以达到既关注局域，又关注整体的目的。一个简单的示意图如