机器学习算法实践与分析

原创

于 2025-09-15 10:19:53 发布 · 742 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 # 感知机 # 分类器

37、创建一个由1000个示例组成的合成玩具域，每个示例由一对属性描述，每个属性的值都来自区间[0, 1]。在由这些属性值定义的正方形[0, 1]×[0, 1]中，定义一个你选择的几何图形，并将该图形内的所有示例标记为正类，其他所有示例标记为负类。

可使用Python等编程语言完成此任务。以下是一个简单示例，定义几何图形为以(0.5, 0.5)为圆心、半径为0.3的圆：

import numpy as np

# 生成1000个示例，每个示例有两个属性，属性值在[0, 1]之间
np.random.seed(42)
examples = np.random.rand(1000, 2)

# 定义几何图形（以(0.5, 0.5)为圆心，半径为0.3的圆）
center = np.array([0.5, 0.5])
radius = 0.3

# 计算每个示例到圆心的距离
distances = np.linalg.norm(examples - center, axis=1)

# 根据距离判断示例是否在圆内，并标记类别
labels = np.where(distances < radius, 1, 0)

38、手动模拟感知机学习算法的过程，从一组不同于默认的初始权重开始，并尝试不同的学习率。

感知机学习算法步骤

手动模拟感知机学习算法的步骤如下：

假设两类线性可分，将所有权重初始化为小随机数，选择合适的学习率 α ∈ (0,1]；
对于每个训练示例 x = (x₁, …, xₙ) 及其类别 c(x)：
- (i) 若 ∑(i = 0 到 n) wᵢxᵢ > 0，令 h(x) = 1，否则 h(x) = 0；
- (ii) 使用公式 wᵢ = wᵢ + α[c(x) - h(x)]xᵢ 更新每个权重；
若所有训练示例都满足 c(x) = h(x)，则停止；否则返回步骤 2。

39、再次进行相同的练习，这次使用 WINNOW 算法。别忘了为感知机中那些负权重引入额外的“属性”。

在练习中为原属性创建一对“新”属性（一个复制原属性值，另一个取相反值）以处理负权重情况。

40、解释在平面中，将 1 - 近邻（1 - NN）分类器应用于一对示例（一个正例，一个反例）时，为何可以定义一个线性分类器。发明一种利用此观察结果来归纳线性分类器的机器学习算法，并将该过程推广到 n 维领域。

在平面中，对于一对正负示例，1 - NN 分类器的决策边界是这两个示例连线的垂直平分线，这是一条直线，所以可定义线性分类器。

一种可能的机器学习算法：

从训练集中随机选取一对正负示例。
计算其连线的垂直平分线作为初始线性分类器。
遍历剩余训练示例：
- 若有分类错误的示例，调整这对示例（如替换其中一个）。
- 重新计算垂直平分线。
重复步骤 3，直到所有训练示例分类正确或达到最大迭代次数。

推广到 n 维领域：

对于 n 维空间中的一对正负示例，其决策边界是这两个示例连线的垂直平分超平面。
算法流程类似，只是计算垂直平分超平面的参数。

41、在独立测试示例上，线性分类器何时可能比多项式分类器有更好的分类性能？

当数据的类别边界是线性可分或者近似线性可分，且数据中噪声较少时，线性分类器可能比多项式分类器在独立测试示例上有更好的分类性能。

原因：
因为多项式分类器灵活性高，容易对噪声数据过拟合。

42、有时，由于类别标签噪声，原本线性可分的区域会变得线性不可分。请想出一种能够去除此类噪声示例的技术。

统计一个样本的k个近邻的类别，若与该样本类别差异较大，则可能为噪声样本，可考虑将其去除。

43、创建一个由20个示例组成的训练集，每个示例由五个二元属性x1, …, x5描述。若示例中至少有三个属性的值xi = 1，则将其标记为正例，其他示例标记为负例。以这个训练集作为输入，使用感知机学习算法诱导一个线性分类器。对不同的学习率α进行实验。绘制一个函数图像，横轴表示α，纵轴表示分类器正确分类所有训练示例所需的示例呈现次数。讨论实验结果。

实验步骤

按以下步骤完成：

创建包含20个示例的训练集，示例由五个二元属性描述，按规则标记正负例；
使用感知机学习算法，以该训练集诱导线性分类器；
用不同学习率α进行实验；
绘制函数图像，横轴为α，纵轴为分类器正确分类所有训练示例所需的示例呈现次数；
讨论实验结果。

44、像前面的例子一样手动模拟误差反向传播，针对以下两种情况重复计算：输出层权重较大的情况：w(1)11 = 3.0；w(1)12 = -3.0；w(1)21 = 3.0；w(1)22 = 3.0；输出层权重较小的情况：w(1)11 = 0.3；w(1)12 = -0.3；w(1)21 = 0.3；w(1)22 = 0.3。观察每种情况下权重的相对变化。

需根据误差反向传播的具体算法进行手动模拟计算，以观察不同权重初始值下权重的相对变化。

45、与多层感知器相比，径向基函数网络的优缺点有哪些？

优点与缺点分析

优点：
- 径向基函数网络在隐藏层神经元使用高斯函数。
- 输出层神经元训练可采用感知器学习，只需训练一层权重。
- 可将支持向量机思想应用于隐藏神经元输出，得到基

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。