《机器学习》一书勘误汇总-优快云博客

周志华老师的《机器学习》的勘误

原帖地址： http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm

由于勘误是不断更新的，本博客并不会实时更新，因此建议看原贴，原贴是周老师实时更新的勘误，本博客只是部分勘误

勘误修订

[部分修订是为了更便于读者理解，并非原文有误]

(第一版第十次印刷, 2016年9月)：

(第一版第九次印刷, 2016年8月)：

(第一版第八次印刷, 2016年5月)：

- p.5, 第2段倒数第3行: “3、2、2” –> “3、3、3”
- p.5, 第2段倒数第2行: “ $4 \times 3 \times 3 + 1 = 37$ ” –> “ $4 \times 4 \times 4 + 1 = 65$ ”
- p.26, 边注第2行: “2.6 节” –> “2.5 节”
- p.41, 式(2.33)上面一行: “正态分布, 且均值 …… 因此变量” –> “正态分布. McNemar检验考虑变量”
- p.41, 式(2.33)旁加边注: “ $e_{01} + e_{10}$ 通常很小, 需考虑连续性校正, 因此分子中有 $-1$ 项”
- p.45, 第一个边注: “由式(2.37)” –> “考虑到噪声不依赖于 $f$ , 由式(2.37)”
- p.63, 式(3.45)下面一行: “ $N-1$ 个最大” –> “ $d'$ 个最大非零”
- p.63, 式(3.45)下面第2行: “矩阵.” –> “矩阵, $d'\le N-1$ .”; 加边注: “最多有 $N-1$ 个非零特征值”
- p.63, 式(3.45)下面第3行: “ $N-1$ 维” –> “ $d'$ 维”
- p.63, 式(3.45)下面第4行: “ $N-1$ 通常远小于数据原有的属性数” –> “ $d'$ 通常远小于数据原有的属性数 $d$ ”
- p.100, 图5.5, 左图最上面的 “阈值 $0.5$ ” –> “阈值 $1.5$ ”
- p.100, 图5.5, 左图最右边的 “阈值 $0.5$ ” –> “阈值 $-1.5$ ”
- p.100, 图5.5, 左图中间的”1 -1 -1 1” –> “1 1 -1 -1”
- p.125, 式(6.18): “ $y_s$ ” –> “ $1/y_s$ ”
- p.136, 式(6.54): 右边最后一项中的四处 ” $i$ ” –> “ $j$ ”
- p.136, 式(6.54): 右边最后一项中最后的 ” ${\bm x}$ ” –> “ ${\bm x}_i$ ”
- p.152, 第三个式子等号右端: “ $0.375$ ” –> “ $0.625$ ”
- p.153, 第3行: “ $0.038$ ” –> “ $0.063$ ”
- p.153, 第6行: “ $0.038$ ” –> “ $0.063$ ”
- p.160, 式(7.29)下面第2行: “需多少字节来描述 $D$ ” –> “对 $D$ 描述得有多好”；加边注: “可以从统计学习角度理解, 将两项分别视为结构风险和经验风险”
- p.239, 式(10.39)第二行式子: 去掉上标 “ $2$ ”
- p.244, 第13行: “Locally” –> “Nonlinear dimensionality reduction by locally”
- p.244, 第14行: “2316” –> “2326”
- p.249, 式(11.2): “ $i=1$ ” –> “ $k=1$ ”
- p.253, 倒数第5行: “[Boyd and Vandenberghe, 2004]” –> “[Combettes and Wajs, 2005]”
- p.263, 倒数第4行, 插入: “Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward-backward splitting.” \textit{Mutiscale Modeling & Simulation}, 4(4):1168–1200.”
- p.277, 式(12.29): “ $E(h) - \hat{E}(h)$ ” –> “ $\left| E(h) - \hat{E}(h) \right|$ ”
- p.299, 式(13.9)后第三段第2行: “关于 $D_u$ ” –> “涉及 $C_u$ ”

(第一版第七次印刷, 2016年4月)：

- p.42, 表2.5下面一段的第三行: “服从正态分布，其均值” –> “的均值”
- p.42, 倒数第二行加边注: “原始检验要求 $k$ 较大(例如 $>30$ )，若 $k$ 较小则倾向于认为无显著区别”

(第一版第六次印刷, 2016年4月)：

p.56, 图3.1中，红色第一和第二个点的坐标互换

p.114, 图5.15中, 卷积层 16@10x10 和采样层 16@5x5 各去掉 8 个方块

p.301, 式(13.12)的下一行: “

({\bm f}_{l}^{T} {\bm f}_{u}^{T})^{T}

$({\bm f}_l^{\rm T}\,{\bm f}_u^{\rm T})^{\rm T}$ ” –> “

(\bmfTl;\bmfTu)(\bmflT;\bmfuT) $({\bm f}_l^{\rm T}; {\bm f}_u^{\rm T})$ ”

p.372, 图16.2: 从”s=健康”到”s=溢水”的 “r=1” –> “r=-1”

p.376, 图16.5的边注: “第 4 行中式(16.4)的参数” –> “该参数在第4行使用”

p.385, 第二行: “在使用策略时并不需要

ϵ−ϵ− $\epsilon-$ 贪心” –> “而不是为了最终使用”

p.387, 倒数第二行: “

ϵ−ϵ− $\epsilon-$ 贪心策略, 而执行(第5行)的是原始策略” –> “原始策略, 而执行(第4行)的是

ϵ−ϵ− $\epsilon-$ 贪心策略”

p.393, 第四段第一行: 去掉 “[Kuleshov and Precup, 2000]和”

p.395, 去掉最后一行

p.396, 去掉第一行

p.402, 式(A.32)加边注: “机器学习中

WW $\bf W$ 通常是对称矩阵”

(第一版第五次印刷, 2016年3月)：

- p.62, 第1行加边注: “ $(\bm{\mu}_0 - \bm{\mu}_1)^{\rm T} \bm{w}$ 是标量”
- p.78, 图4.4, 从右往左数: 第二个叶结点改为“好瓜”，第三个叶结点改为“坏瓜”
- p.85, 图4.8, 从右往左数: 第二个叶结点改为“好瓜”，第三个叶结点改为“坏瓜”
- p.85, 图4.8, 中间分支底层: “硬挺”–> “硬滑”
- p.89, 图4.9, 中间分支底层: “硬挺”–> “硬滑”
- p.103, 最后一行的式子: 求和的” $q$ ” –> “ $l$ ”
- p.399, 式(A.9): “ $A_{1 \sigma n}$ ” –> “ $A_{n \sigma n}$ ”
- p.400, 第1行: “(1,4,3,2)” –> “(3,1,2)”
- p.402, 式(A.32)最后一行的式子中: “ $2{\mathbf A}$ ” –> “ $2{\mathbf A}^{\rm T}$ ”

(第一版第四次印刷, 2016年3月)：

- p.59, 式(3.27)加边注: “考虑 $y_i \in \{0, 1\}$ ”

(第一版第三次印刷, 2016年3月)：

- p.15, 第5行: “居功” –> “厥功”
- p.55, 最后一行: 式子括号中的逗号改为分号
- p.125, 第3行: “减小” –> “增大”
- p.125, 第4行，第6行: “减幅” –> “增幅”
- p.125, 第5行: “减小” –> “增长”

(第一版第二次印刷, 2016年2月)：

- p.38, 第6行: “ $\epsilon^{m'}$ ” –> “ ${m \choose m'} \epsilon^{m'}$ ”
- p.119, 第14行: “318–362” –> “533–536”
- p.404, 式(B.3)最后一行的式子 –> “ $\lambda g({\bm x})=0$ ”

(第一版第一次印刷, 2016年1月)：

- p.6, 图1.2: 图中两处”清脆” –> “浊响”
- p.28, 第3段倒数第2行: “大量” –> “不少”
- p.28, 边注: “例如 ……上百亿个参数” –> “机器学习常涉及两类参数: 一类是算法的参数, 亦称”超参数”, 数目常在10以内; 另一类是模型的参数, 数目可能很多, 例如……上百亿个参数. 两者调参方式相似, 均是产生多个模型之后基于某种评估方法来进行选择; 不同之处在于前者通常是由人工设定多个参数候选值后产生模型, 后者则是通过学习来产生多个候选模型(例如神经网络在不同轮数停止训练).”
- p.31, 倒数第3行: “Event” –> “Even”
- p.256, 第4段: “固定住 ${\bf \alpha}_i$ ” –> “以 ${\bf \alpha}_i$ 为初值”
- p.256, 最后一段第1行: “ ${\bf E}_i =$ ” –> “ ${\bf E}_i = {\bf X} -$ ”
- p.385, 式(16.25)和(16.26): 两处” $r_i$ ” –> “ $R_i$ ”
- p.385, 式(16.25)下一行: “若改用……” –> “其中 $R_i$ 表示第 $i$ 条轨迹上自状态 $x$ 至结束的累积奖赏. 若改用……”
- p.386, 式(16.28)下一行: “始终为1” –> “对于 $a_i=\pi(x_i)$ 始终为1”
- p.386, 图16.11, 第4步: 两处 “ $\pi(x)$ ” –> “ $\pi(x_i)$ ”
- p.386, 图16.11, 第6步的式子 –> “ $R=\frac{1}{T-t}\left(\sum_{i=t+1}^T r_i\right) \prod_{i=t+1}^{T-1} \frac{\mathbb I(a_i=\pi(x_i))}{p_i}$ ”
- p.386, 图16.11, 边注”计算修正的累积奖赏.” –> “计算修正的累积奖赏. 连乘内下标大于上标的项取值为1.”; 去掉边注”重要性采样系数.”

周志华《机器学习》勘误表