机器学习基础问题与实例分析

1、在一个由十个布尔属性描述的领域中,实例空间的大小是多少?分类器空间有多大?

由 $ n $ 个布尔属性可创建出 $ 2^n $ 个不同的示例,所以当 $ n = 10 $ 时,实例空间大小为 $ 2^{10} $。

假设分类器由任意布尔函数定义,每个实例空间的子集都可由一个不同的分类器表示,那么分类器空间(即假设空间)的大小为 $ 2 $ 的实例空间大小次方。

所以当实例空间大小为 $ 2^{10} $ 时,分类器空间大小为 $ 2^{2^{10}} $。

2、在数据处理中,存在一些数据相关难题。哪些是真正严重的,哪些或许可以容忍?

真正严重的难题有:

  • 无关属性会增加计算成本甚至误导学习器,且通常难以避免;
  • 缺失关键属性会导致训练集不一致,难以归纳出好的分类器,且有时难以避免。

可以容忍的难题是冗余属性,其危害相对较小,因为它们的值可从其他属性获得。

3、冗余属性和无关属性之间的区别是什么?

属性分类及其影响

  • 无关属性 :指其值与给定示例的类别无关但会影响向量间几何距离的属性。
  • 冗余属性 :指其值可从其他属性值获得的属性,如年龄可从出生日期得出。

对归纳技术的影响

  • 无关属性 冗余属性 都可能误导某些归纳技术。
  • k-NN分类器 :无关属性对计算的向量距离影响更大。
  • 决策树等范式 :受冗余属性影响相对较小,但也可能因属性过多而产生过高的计算成本。

4、选取一个你认为难以描述的类别,例如识别复杂生物对象(橡树、鸵鸟等)或识别音乐流派(摇滚、民谣、爵士等)。列出用于描述训练示例的属性列表。这些属性的值是否容易获取?你预计哪些问题会使学习过程变得复杂?

以识别橡树为例,可使用的属性列表:

属性列表(识别橡树)

外观方面
  • 树干粗细
  • 树皮纹理
  • 树枝分叉角度
  • 树冠形状
叶子特征
  • 叶片形状
  • 大小
  • 颜色
  • 边缘锯齿情况
果实特征
  • 橡果大小
  • 形状
  • 颜色

属性获取难度

  • 较易获取 :树干粗细、叶子颜色
  • 需专业工具测量 :树枝分叉角度等

可能使学习过程复杂的问题

  1. 存在未知属性值 :如在某些季节可能无法获取果实特征。
  2. 属性选择困难
    - 过多属性会增加计算成本;
    - 可能包含无关或冗余属性,如树干粗细可能与橡树识别并非强相关。
  3. 训练集可能存在不一致情况 :不同地区的橡树外观有差异,可能导致训练数据存在矛盾。
  4. 属性值和类别标签可能受噪声影响 :如光照条件会影响对叶子颜色的判断。

以识别音乐流派为例:

属性列表(识别音乐流派)

节奏
  • 节奏快慢
  • 节拍类型
旋律
  • 音高变化
  • 旋律复杂度
乐器使用
  • 主要乐器类型
  • 乐器组合方式
歌词风格
  • 主题
  • 语言风格

属性获取难度

  • 较易获取 :节奏、乐器使用
  • 较难量化 :旋律复杂度

可能遇到的问题

  1. 存在未知属性值 :如一些音乐的歌词模糊难以判断风格。
  2. 属性选择问题 :过多节奏特征可能冗余。
  3. 训练集不一致 :不同年代同一流派音乐风格有演变。
  4. 噪声干扰 :音乐录制质量影响对乐器音色判断。

5、一枚硬币抛了三次,分别出现正面、反面和反面。使用 m = 3 和 θ_正面 = θ_反面 = 0.5 计算这些结果的 m - 估计值。

根据公式 $P_{heads}=\frac{N_{heads}+m\theta_{heads}}{N_{all}+m}$,已知 $N_{all}=3$,$N_{heads}=1$,$m = 3$,$\theta_{heads}=0.5$,则

$$
P_{heads}=\frac{1 + 3\times0.5}{3 + 3}=\frac{1 + 1.5}{6}=\frac{2.5}{6}=\frac{5}{12}\approx0.42
$$

因为 $N_{tails}=2$,所以

$$
P_{tails}=\frac{N_{tails}+m\theta_{tails}}{N_{all}+m}=\frac{2 + 3\times0.5}{3 + 3}=\frac{2 + 1.5}{6}=\frac{3.5}{6}=\frac{7}{12}\approx0.58
$$

6、机器学习研究人员经常使用公开可用的基准领域来测试他们的算法。可以在以下地址找到大量此类领域的存储库:www.ics.uci.edu/~mlearn/MLRepository.html。查看这些数据,看看它们在属性数量、属性类型、规模等方面有何不同。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值