机器学习_周志华_问题汇总_第1周

问题

Q1 从3.27求w和b,为什么不能直接让它的导数等于0来求?

你说的方法是解析法,但是实际问题很复杂,很难求得精确解,所以一般要用数值法(拟牛顿法等)来求近似解。

Q2 1.为什么推导logistic回归时需要用到极大似然法,推导最小二乘解时却不需要?在什么情况下需要用到极大似然?2.牛顿迭代二阶导,为啥是对βT求导?

逻辑回归是统计学的角度,用样本估计总体分布的参数,所以用最大似然。最小二乘法,是从数学分析的角度来求解的。完全两个不同的解决问题的途径。 牛顿迭代只是那种数学公式形式,对转置求导,也是对其中的变量求导啊,与是否转置没太大关系啊,不必太纠结。

Q3 代码里的 y_train = df_train[‘class’] - 1 是什么意思?这里为什么要这样做?

为了让类别从0开始计数

Q4 对于线性不可分的数据,为什么用核方法升维在SVM上可以起到很好的效果,而在LR上很容易出现过拟合?

个人觉得 svm有一定的软间隔,即安全距离,所以泛化能力强一些。仅供参考,没有理论支撑。

Q5 能不能解释下判别式模型和生成式模型,何种属于判别式模型,何种属于生成式模型?

判别模型就是直接建模,直接建立一个判别的拟合函数,生成模型就是间接建模计算。这属于文字的概念,影响不大。

Q6 请问5人组队参加相比单人参加有哪些具体优势吗?然后如果是多人参加应该怎么分工比较好

每个人用自己的方法做到最好成绩,然后5个模型进行融合,成绩应该会有提高。融合就是5个人的分类结果,少数服从多数。

Q7 请问只有一般的Windows笔记本电脑但是想学linux该怎么办…因为以后总是要用到是装虚拟机还是双系统还是换电脑

ubuntu18.04用refuns做个启动盘安装,里面有选择双系统并存,非常简单。<

### 周志华机器学习》第四章内容概述 周志华编著的《机器学习》第四章主要聚焦于决策树这一重要的监督学习方法[^3]。该章节深入探讨了决策树的学习过程及其应用,具体涵盖了以下几个方面: #### 1. 决策树简介 介绍了决策树作为一种基本分类工具的概念和发展历史。 #### 2. 划分选择标准 讨论了几种不同的划分选择标准,包括但不限于: - **ID3算法** 使用信息增益作为衡量指标来决定如何分割数据集;然而这种方法倾向于选择具有更多取值可能性的特征。 - **C4.5算法** 改进了这一点,采用信息增益率代替简单的信息增益,从而更公平地对待不同数量级别的离散变量。 - **CART (Classification And Regression Trees)** 方法,则基于基尼系数来进行节点分裂的选择。 ```python def calculate_information_gain(data, feature): # 计算给定数据集的信息熵 entropy_before_split = compute_entropy(data) weighted_entropies_after_split = [] for value in set([row[feature] for row in data]): subset = [row for row in data if row[feature] == value] probability_of_value = len(subset)/len(data) entropy_for_subset = compute_entropy(subset) weighted_entropies_after_split.append(probability_of_value * entropy_for_subset) information_gain = entropy_before_split - sum(weighted_entropies_after_split) return information_gain def choose_best_feature_to_split(data): best_info_gain = -1 best_feature_index = None num_features = len(data[0]) - 1 # 减去标签列 for i in range(num_features): info_gain = calculate_information_gain(data, i) if(info_gain > best_info_gain): best_info_gain = info_gain best_feature_index = i return best_feature_index ``` #### 3. 过拟合处理 解释了过拟合现象以及通过剪枝等方式减少这种风险的方法和技术细节。 #### 4. 实践案例分析 提供了多个实际应用场景中的例子,并指导读者理解如何构建有效的决策树模型。 对于希望进一步了解或获取更多关于此主题资料的朋友来说,《机器学习》这本书本身就是一个非常好的起点。此外,在线平台上也有许多开源项目和教程可以帮助加深理解和实践操作技能[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值