周志华老师的《机器学习》的勘误
原帖地址: http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm
由于勘误是不断更新的,本博客并不会实时更新,因此建议看原贴,原贴是周老师实时更新的勘误,本博客只是部分勘误
勘误修订
[部分修订是为了更便于读者理解,并非原文有误]
(第一版第十次印刷, 2016年9月):
(第一版第九次印刷, 2016年8月):
(第一版第八次印刷, 2016年5月):
- p.5, 第2段倒数第3行: “3、2、2” –> “3、3、3”
- p.5, 第2段倒数第2行: “4×3×3+1=374×3×3+1=37” –> “4 \times 4 \times 4 + 1 = 654 \times 4 \times 4 + 1 = 65”
- p.26, 边注第2行: “2.6 节” –> “2.5 节”
- p.41, 式(2.33)上面一行: “正态分布, 且均值 …… 因此变量” –> “正态分布. McNemar检验考虑变量”
- p.41, 式(2.33)旁加边注: “e01+e10e01+e10 通常很小, 需考虑连续性校正, 因此分子中有 −1−1 项”
- p.45, 第一个边注: “由式(2.37)” –> “考虑到噪声不依赖于ff, 由式(2.37)”
- p.63, 式(3.45)下面一行: “个最大” –> “d′d′个最大非零”
- p.63, 式(3.45)下面第2行: “矩阵.” –> “矩阵, d′≤N−1d′≤N−1.”; 加边注: “最多有N−1N−1个非零特征值”
- p.63, 式(3.45)下面第3行: “N−1N−1维” –> “d′d′维”
- p.63, 式(3.45)下面第4行: “N−1N−1通常远小于数据原有的属性数” –> “d′d′通常远小于数据原有的属性数dd”
- p.100, 图5.5, 左图最上面的 “阈值” –> “阈值1.51.5”
- p.100, 图5.5, 左图最右边的 “阈值0.50.5” –> “阈值−1.5−1.5”
- p.100, 图5.5, 左图中间的”1 -1 -1 1” –> “1 1 -1 -1”
- p.125, 式(6.18): “ysys” –> “1/ys1/ys”
- p.136, 式(6.54): 右边最后一项中的四处 ”ii” –> “”
- p.136, 式(6.54): 右边最后一项中最后的 ”\bmx\bmx” –> “\bmxi\bmxi”
- p.152, 第三个式子等号右端: “0.3750.375” –> “0.6250.625”
- p.153, 第3行: “0.0380.038” –> “0.0630.063”
- p.153, 第6行: “0.0380.038” –> “0.0630.063”
- p.160, 式(7.29)下面第2行: “需多少字节来描述DD” –> “对描述得有多好”;加边注: “可以从统计学习角度理解, 将两项分别视为结构风险和经验风险”
- p.239, 式(10.39)第二行式子: 去掉上标 “22”
- p.244, 第13行: “Locally” –> “Nonlinear dimensionality reduction by locally”
- p.244, 第14行: “2316” –> “2326”
- p.249, 式(11.2): “” –> “k=1k=1”
- p.253, 倒数第5行: “[Boyd and Vandenberghe, 2004]” –> “[Combettes and Wajs, 2005]”
- p.263, 倒数第4行, 插入: “Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward-backward splitting.” \textit{Mutiscale Modeling & Simulation}, 4(4):1168–1200.”
- p.277, 式(12.29): “E(h)−E^(h)E(h)−E^(h)” –> “∣∣E(h)−E^(h)∣∣|E(h)−E^(h)|”
- p.299, 式(13.9)后第三段第2行: “关于 DuDu” –> “涉及 CuCu”
(第一版第七次印刷, 2016年4月):
- p.42, 表2.5下面一段的第三行: “服从正态分布,其均值” –> “的均值”
- p.42, 倒数第二行加边注: “原始检验要求kk较大(例如),若kk较小则倾向于认为无显著区别”
(第一版第六次印刷, 2016年4月):
- p.56, 图3.1中,红色第一和第二个点的坐标互换
- p.114, 图5.15中, 卷积层 16@10x10 和 采样层 16@5x5 各去掉 8 个方块
- p.301, 式(13.12)的下一行: “” –> “(\bmfTl;\bmfTu)(\bmflT;\bmfuT)”
- p.372, 图16.2: 从”s=健康”到”s=溢水”的 “r=1” –> “r=-1”
- p.376, 图16.5的边注: “第 4 行中式(16.4)的参数” –> “该参数在第4行使用”
- p.385, 第二行: “在使用策略时并不需要ϵ−ϵ−贪心” –> “而不是为了最终使用”
- p.387, 倒数第二行: “ϵ−ϵ−贪心策略, 而执行(第5行)的是原始策略” –> “原始策略, 而执行(第4行)的是ϵ−ϵ−贪心策略”
- p.393, 第四段第一行: 去掉 “[Kuleshov and Precup, 2000]和”
- p.395, 去掉最后一行
- p.396, 去掉第一行
- p.402, 式(A.32)加边注: “机器学习中 WW 通常是对称矩阵”
(第一版第五次印刷, 2016年3月):
- p.62, 第1行加边注: “(\bmμ0−\bmμ1)T\bmw(\bmμ0−\bmμ1)T\bmw 是标量”
- p.78, 图4.4, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
- p.85, 图4.8, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
- p.85, 图4.8, 中间分支底层: “硬挺”–> “硬滑”
- p.89, 图4.9, 中间分支底层: “硬挺”–> “硬滑”
- p.103, 最后一行的式子: 求和的”qq” –> “”
- p.399, 式(A.9): “A1σnA1σn” –> “AnσnAnσn”
- p.400, 第1行: “(1,4,3,2)” –> “(3,1,2)”
- p.402, 式(A.32)最后一行的式子中: “2A2A” –> “2AT2AT”
(第一版第四次印刷, 2016年3月):
- p.59, 式(3.27)加边注: “考虑 yi∈{0,1}yi∈{0,1}”
(第一版第三次印刷, 2016年3月):
- p.15, 第5行: “居功” –> “厥功”
- p.55, 最后一行: 式子括号中的逗号改为分号
- p.125, 第3行: “减小” –> “增大”
- p.125, 第4行,第6行: “减幅” –> “增幅”
- p.125, 第5行: “减小” –> “增长”
(第一版第二次印刷, 2016年2月):
- p.38, 第6行: “ϵm′ϵm′” –> “(mm′)ϵm′(mm′)ϵm′”
- p.119, 第14行: “318–362” –> “533–536”
- p.404, 式(B.3)最后一行的式子 –> “λg(\bmx)=0λg(\bmx)=0”
(第一版第一次印刷, 2016年1月):
- p.6, 图1.2: 图中两处”清脆” –> “浊响”
- p.28, 第3段倒数第2行: “大量” –> “不少”
- p.28, 边注: “例如 ……上百亿个参数” –> “机器学习常涉及两类参数: 一类是算法的参数, 亦称”超参数”, 数目常在10以内; 另一类是模型的参数, 数目可能很多, 例如……上百亿个参数. 两者调参方式相似, 均是产生多个模型之后基于某种评估方法来进行选择; 不同之处在于前者通常是由人工设定多个参数候选值后产生模型, 后者则是通过学习来产生多个候选模型(例如神经网络在不同轮数停止训练).”
- p.31, 倒数第3行: “Event” –> “Even”
- p.256, 第4段: “固定住αiαi” –> “以αiαi为初值”
- p.256, 最后一段第1行: “Ei=Ei=” –> “Ei=X−Ei=X−”
- p.385, 式(16.25)和(16.26): 两处”riri” –> “RiRi”
- p.385, 式(16.25)下一行: “若改用……” –> “其中RiRi表示第ii条轨迹上自状态至结束的累积奖赏. 若改用……”
- p.386, 式(16.28)下一行: “始终为1” –> “对于ai=π(xi)ai=π(xi)始终为1”
- p.386, 图16.11, 第4步: 两处 “π(x)π(x)” –> “π(xi)π(xi)”
- p.386, 图16.11, 第6步的式子 –> “R=1T−t(∑Ti=t+1ri)∏T−1i=t+1I(ai=π(xi))piR=1T−t(∑i=t+1Tri)∏i=t+1T−1I(ai=π(xi))pi”
- p.386, 图16.11, 边注”计算修正的累积奖赏.” –> “计算修正的累积奖赏. 连乘内下标大于上标的项取值为1.”; 去掉边注”重要性采样系数.”