从名字上来看语义分割应当属于图像分割的范畴,但是实际上它是一个精确到像素的分类任务。
在英文文献中称其为dense prediction, 他的任务生成一张分割图,其能够将原图中的物体按照语义类别进行分割,
这个任务的实质是对每个像素所属类别进行标注,因此在训练的时候需要为每一张图像匹配相应的label。
--------------------------------------------------------------------------------
在看语义分割相关论文(是在U-Net 当中)的时候,我发现了这样的一句话:
The energy function is computed by a pixel-wise soft-max
over the final feature map combined with the cross entropy loss function.
这其中涉及到了一个energy function , 我百度了一下发现能量函数(energy function)一开始在热力学中被定义,用于描述系统的能量值,当能量值达到最小时系统达到稳定状态。
RBM(玻尔兹曼机)首次在神经网络(Neural Network)中用到 了这个概念,类比的来看,这个energy function函数的作用和loss函数的作用应当是差不多的,都是通过最小化该函数来训练网络。
并且在U-Net的论文当中说他们所使用的energy function 包含两部分,一部分是softmax, 另一部分是 cross entropy loss function 也就是常说的交叉熵。
并且这两部分都是pixel-wise的,