1、在一个由十个布尔属性描述的领域中,实例空间的大小是多少?分类器空间有多大?
由 $ n $ 个布尔属性可创建出 $ 2^n $ 个不同的示例,所以当 $ n = 10 $ 时,实例空间大小为 $ 2^{10} $。
假设分类器由任意布尔函数定义,每个实例空间的子集都可由一个不同的分类器表示,那么分类器空间(即假设空间)的大小为 $ 2 $ 的实例空间大小次方。
所以当实例空间大小为 $ 2^{10} $ 时,分类器空间大小为 $ 2^{2^{10}} $。
2、在数据处理中,存在一些数据相关难题。哪些是真正严重的,哪些或许可以容忍?
真正严重的难题有:
- 无关属性会增加计算成本甚至误导学习器,且通常难以避免;
- 缺失关键属性会导致训练集不一致,难以归纳出好的分类器,且有时难以避免。
可以容忍的难题是冗余属性,其危害相对较小,因为它们的值可从其他属性获得。
3、冗余属性和无关属性之间的区别是什么?
属性分类及其影响
- 无关属性 :指其值与给定示例的类别无关但会影响向量间几何距离的属性。
- 冗余属性 :指其值可从其他属性值获得的属性,如年龄可从出生日期得出。
对归纳技术的影响
- 无关属性 和 冗余属性 都可能误导某些归纳技术。
- k-NN分类器 :无关属性对计算的向量距离影响更大。
- 决策树等范式 :受冗余属性影响相对较小,但也可能因属性过多而产生过高的计算成本。
4、选取一个你认为难以描述的类别,例如识别复杂生物对象(橡树、鸵鸟等)或识别音乐流派(摇滚、民谣、爵士等)。列出用于描述训练示例的属性列表。这些属性的值是否容易获取?你预计哪些问题会使学习过程变得复杂?
以识别橡树为例,可使用的属性列表:
属性列表(识别橡树)
外观方面
- 树干粗细
- 树皮纹理
- 树枝分叉角度
- 树冠形状
叶子特征
- 叶片形状
- 大小
- 颜色
- 边缘锯齿情况
果实特征
- 橡果大小
- 形状
- 颜色
属性获取难度
- 较易获取 :树干粗细、叶子颜色
- 需专业工具测量 :树枝分叉角度等
可能使学习过程复杂的问题
- 存在未知属性值 :如在某些季节可能无法获取果实特征。
- 属性选择困难 :
- 过多属性会增加计算成本;
- 可能包含无关或冗余属性,如树干粗细可能与橡树识别并非强相关。 - 训练集可能存在不一致情况 :不同地区的橡树外观有差异,可能导致训练数据存在矛盾。
- 属性值和类别标签可能受噪声影响 :如光照条件会影响对叶子颜色的判断。
以识别音乐流派为例:
属性列表(识别音乐流派)
节奏
- 节奏快慢
- 节拍类型
旋律
- 音高变化
- 旋律复杂度
乐器使用
- 主要乐器类型
- 乐器组合方式
歌词风格
- 主题
- 语言风格
属性获取难度
- 较易获取 :节奏、乐器使用
- 较难量化 :旋律复杂度
可能遇到的问题
- 存在未知属性值 :如一些音乐的歌词模糊难以判断风格。
- 属性选择问题 :过多节奏特征可能冗余。
- 训练集不一致 :不同年代同一流派音乐风格有演变。
- 噪声干扰 :音乐录制质量影响对乐器音色判断。
5、一枚硬币抛了三次,分别出现正面、反面和反面。使用 m = 3 和 θ_正面 = θ_反面 = 0.5 计算这些结果的 m - 估计值。
根据公式 $P_{heads}=\frac{N_{heads}+m\theta_{heads}}{N_{all}+m}$,已知 $N_{all}=3$,$N_{heads}=1$,$m = 3$,$\theta_{heads}=0.5$,则
$$
P_{heads}=\frac{1 + 3\times0.5}{3 + 3}=\frac{1 + 1.5}{6}=\frac{2.5}{6}=\frac{5}{12}\approx0.42
$$
因为 $N_{tails}=2$,所以
$$
P_{tails}=\frac{N_{tails}+m\theta_{tails}}{N_{all}+m}=\frac{2 + 3\times0.5}{3 + 3}=\frac{2 + 1.5}{6}=\frac{3.5}{6}=\frac{7}{12}\approx0.58
$$

最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



