大白话：二元分类如何从判断图片是否有猫

最新推荐文章于 2025-08-05 19:25:24 发布

土里吧唧

最新推荐文章于 2025-08-05 19:25:24 发布

阅读量675

点赞数 19

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：分类数据挖掘人工智能

本文链接：https://blog.youkuaiyun.com/fengjian1990/article/details/148978761

深度学习专栏收录该内容

5 篇文章

订阅专栏

图片在计算机眼里长啥样

我们拍的每一张照片，在计算机里都是由成千上万的 “小方块” 组成，这些小方块叫像素。就像用乐高积木拼出一幅画，每个像素就是一块不同颜色的积木。比如一张普通手机拍的照片，可能有几百万个像素。

而颜色呢，计算机不用红、黄、蓝这些词，它靠颜色通道来 “理解” 颜色。最常用的是 RGB 通道，分别代表红色（Red）、绿色（Green）、蓝色（Blue）。每个像素都有三个数字，分别对应红、绿、蓝的强度。比如（255, 0, 0）就是最纯的红色，（0, 0, 0）是黑色，（255, 255, 255）是白色。计算机就靠这一堆数字，“脑补” 出整张图片的样子。

收集数据：给计算机 “投喂”

要让计算机学会找猫，得先给它 “投喂” 很多图片，这些图片就是训练数据。就像教小孩认猫，你得给他看各种猫的照片：趴着的猫、跑着的猫、橘猫、黑猫…… 同时，还要准备一些没有猫的图片，比如风景照、人的自拍。

每张图片旁边都要贴个 “标签”，告诉计算机这张图 “有猫” 还是 “没有猫”。一般用数字表示，比如 “1” 代表有猫，“0” 代表没有猫。这一步就像给计算机准备了一本 “猫猫识别教材”。

选个算法：用逻辑回归 “画条线”

现在问题来了：计算机怎么从一堆像素数字里，判断有没有猫呢？这就得靠二元分类算法。这里用最简单的逻辑回归算法举例，它的原理就像在一大堆数据里 “画一条线”，把有猫和没有猫的图片分开。

逻辑回归有个核心公式，看起来有点复杂： $h_{\theta}(x) = \frac{1}{1 + e^{-\theta^{T}x}}$ 别被符号吓到！简单说：

$x$ 就是图片里所有像素的数字（经过整理后的数据），计算机把图片 “翻译” 成一堆数字，喂给这个公式。

$\Theta$ 是一堆需要调整的数字（比如 θ1、θ2、θ3…），每个 θ 对应 x 里的一个像素数字，调整它们能让公式更准确。比如某个 θ 专门负责判断 “绿色像素多不多”，另一个 θ 负责判断 “有没有毛茸茸的边缘”。初始时 θ 是随机的，比如随便设成 0.1、-0.5 这样的数。

$\theta^{T}x$ 是把 $\Theta$ 和 $x$ 按一定规则 “乘” 起来（专业叫矩阵乘法），算出一个值，比如这个值是3。

把这个值代入到 $\frac{1}{1 + e^{-\theta^{T}x}}$ 里（ $\frac{1}{1 + e^{-\theta^{T}x}}$ 会算出一个 0 到 1 之间的数），最后这个代入后效果是 $\frac{1}{1 + e^{-3}}$ ，e 是自然常数（约 2.718），算完后得到 0.95，这就是 “有 95% 概率是猫”。

训练模型：让计算机 “疯狂研究”

计算机拿着公式和训练数据，开始疯狂 “学习”。它先随便猜一组参数 $\theta$ ，然后用公式计算每张图片 “有猫” 的概率。算完后，和图片中已经打过“有猫”的标签（0 或 1）对比，看看自己猜得准不准。

如果猜得不准，计算机就会调整参数 $\theta$ ，让下次猜得更准。这个过程像不像研究考试的你：先随便写个答案，发现和正确答案不一样，就改一改，直到答案接近正确为止。

计算机用一个叫损失函数的东西，衡量自己猜得有多差。逻辑回归常用的损失函数叫交叉熵损失，公式是这样： $J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_{\theta}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\theta}(x^{(i)}))]$