Trees

上一篇 目录


基本概念

特点
(1)每个结点有零个或多个子节点
(2)每个结点只有一个父节点
(3)没有前驱的结点为根节点
(4)除了根节点外,每个子节点可分为m个不相交的子树
概念
(1)结点的度:一个结点含有子树的个数
(2)树的度:最大的结点的度
(3)叶结点:度为零的结点
(4)分支结点:度不为零的结点
(5)孩子结点:一个结点子树的根节点
(6)双亲结点:含有孩子的结点(或称为父结点)
(7)兄弟结点:具有相同双亲结点
(8)祖先结点:从根到该结点所经分支上的所有结点
(9)子孙结点:以某结点为根的子树中任意结点
(10)结点的层次:
在这里插入图片描述

(11)树的高度或深度:树中结点的最大层次
(12)路径:从根结点到某一结点的一条通路
(13)路径长度:路径经过的边数
(14)有序树VS无序树:任意结点的子结点是否有顺序关系

基本操作——遍历

1.前序遍历
(1)访问根结点
(2)按照从左到右的顺序遍历根结点的每一棵子树。

2.后序遍历
(1)按照从左到右的顺序遍历根结点的每一棵子树。
(2)访问根结点

3.层序遍历
从第一层开始,从上到下逐层遍历,同层按从左到右的顺序遍历
在这里插入图片描述
前序:ABEFKLCGDHIJM
后序:EKLFBGCHIMJDA
层序:ABCDEFGHIJKLM

存储结构

1、双亲表示法

在这里插入图片描述

#define MaxSize 100 
template <class T>
struct pNode
{
 T data;
 int parent;
};
template <class T>
pNode<T>  Tree[MaxSize];
int size;

改进:带右兄弟的双亲表示法
在这里插入图片描述

#define MaxSize 100 
template <class T>
struct pNode
{
 T data;
 int parent;
};
template <class T>
pNode<T>  Tree[MaxSize];
int size;
2、孩子表示法

在这里插入图片描述

struct CNode
{
 int  child;
 CNode *next;
};
template <class T>
struct CBNode
{
 T  data;
 CNode  *firstchild;
};

改进:双亲孩子表示法:
在这里插入图片描述

3、多重链表法

在这里插入图片描述
缺点:浪费大量指针

4、孩子兄弟表示法

在这里插入图片描述

template <class T>
struct TNode
{
 T data;
 TNode<T>  *firstchild, *rightsib;
};

下一篇 二叉树

<think>我们正在讨论BaggedTrees(袋装树)的原理和实现。BaggedTrees是集成学习中的一种方法,它通过构建多个决策树并聚合它们的预测来提高模型的准确性和稳定性。Bagging是BootstrapAggregating的缩写,其核心思想是通过自助采样法(bootstrapsampling)生成多个训练子集,然后基于每个子集训练一个基学习器(这里是决策树),最后将这些基学习器的预测结果进行平均(回归)或投票(分类)以得到最终预测。###BaggedTrees的原理1.**自助采样(BootstrapSampling)**:-从原始训练集中有放回地随机抽取$n$个样本($n$通常等于原始训练集的大小),形成一个自助样本集(bootstrapsample)。由于是有放回抽样,一些样本可能被重复抽取,而另一些样本则可能不被包含在该样本集中。每个自助样本集大约包含原始训练集中63.2%的样本(因为每个样本不被抽到的概率为$1/e$)。2.**构建基学习器**:-对每个自助样本集独立地训练一棵决策树。这些决策树通常不进行剪枝(即完全生长),因此每棵树都是高方差的模型。3.**聚合预测(Aggregation)**:-对于回归问题,最终的预测结果是所有决策树预测值的平均值。-对于分类问题,最终的预测结果是所有决策树预测类别的众数(即投票)。BaggedTrees通过降低模型的方差来提高泛化能力,特别适合于高方差、低偏差的模型(如深度决策树)。随机森林(RandomForest)是BaggedTrees的扩展,它在每个节点分裂时还随机选择一部分特征进行分裂,进一步降低模型之间的相关性,从而提升模型性能。###BaggedTrees的实现在Python中,我们可以使用`scikit-learn`库来实现BaggedTrees。以下是一个简单的示例代码:```pythonfromsklearn.ensembleimportBaggingClassifier,BaggingRegressorfromsklearn.treeimportDecisionTreeClassifier,DecisionTreeRegressorfromsklearn.datasetsimportmake_classification,make_regressionfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score,mean_squared_error#示例1:分类问题#生成分类数据集X_clf,y_clf=make_classification(n_samples=1000,n_features=20,random_state=42)X_train_clf,X_test_clf,y_train_clf,y_test_clf=train_test_split(X_clf,y_clf,test_size=0.3,random_state=42)#创建Bagging分类器,基学习器为决策树bag_clf=BaggingClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=100,#100棵树max_samples=0.8,#每棵树的样本数为原始训练集的80%bootstrap=True,#使用自助采样random_state=42)bag_clf.fit(X_train_clf,y_train_clf)y_pred_clf=bag_clf.predict(X_test_clf)print(f"分类准确率:{accuracy_score(y_test_clf,y_pred_clf)}")#示例2:回归问题#生成回归数据集X_reg,y_reg=make_regression(n_samples=1000,n_features=10,noise=0.1,random_state=42)X_train_reg,X_test_reg,y_train_reg,y_test_reg=train_test_split(X_reg,y_reg,test_size=0.3,random_state=42)#创建Bagging回归器bag_reg=BaggingRegressor(base_estimator=DecisionTreeRegressor(),n_estimators=100,max_samples=0.8,bootstrap=True,random_state=42)bag_reg.fit(X_train_reg,y_train_reg)y_pred_reg=bag_reg.predict(X_test_reg)print(f"回归均方误差:{mean_squared_error(y_test_reg,y_pred_reg)}")```###关键参数说明-`base_estimator`:基学习器,默认为决策树。-`n_estimators`:集成中基学习器的数量(树的数量)。-`max_samples`:每个基学习器训练时抽取的样本数(可以是整数或浮点数,浮点数表示比例)。-`bootstrap`:是否使用有放回抽样,默认为True(自助采样)。如果设置为False,则使用无放回抽样(即采样但不重复)。-`bootstrap_features`:是否对特征进行自助采样(默认为False)。如果设置为True,则形成随机子空间。-`oob_score`:是否使用袋外样本(out-of-bagsamples)来评估模型。在自助采样中,未被抽到的样本称为袋外样本,可以用作验证集。###袋外估计(OOBEstimation)在Bagging中,由于自助采样,每个基学习器训练时都有部分样本未被使用(大约36.8%)。这些袋外样本可以用于评估模型的泛化能力,而无需单独的验证集。在`scikit-learn`中,设置`oob_score=True`即可在训练后通过`bag_clf.oob_score_`获取袋外估计的准确率(分类)或$R^2$分数(回归)。###总结BaggedTrees通过组合多个决策树的预测来降低方差,提高模型的鲁棒性。它特别适用于高方差的模型,并且对过拟合有一定的抵抗力。随机森林作为其改进版本,在特征选择上增加了随机性,通常具有更好的性能。§§相关问题§§1.BaggedTrees和随机森林有什么区别?2.如何选择BaggedTrees中基学习器的数量?3.BaggedTrees在什么情况下容易过拟合?4.如何评估BaggedTrees模型的性能?5.除了决策树,Bagging还可以使用哪些基学习器?</think>### Bagged Trees 算法原理 Bagged Trees(袋装决策树)是集成学习中的 Bagging 方法在决策树上的应用,核心思想是通过**并行构建多个弱学习器(决策树)并聚合结果**来提升模型稳定性和准确性。其原理可分为三个关键步骤: #### 1. 自助采样(Bootstrap Sampling) - 从原始训练集(含$n$个样本)中**有放回地随机抽取$n$个样本**,形成新的训练子集 - 每个样本被抽中的概率为$1 - (1 - 1/n)^n \approx 63.2\%$,未被抽中的样本(约36.8%)称为**袋外样本(Out-of-Bag, OOB)**,可用于验证[^5] - 重复该过程$T$次,生成$T$个不同的训练子集 #### 2. 并行树构建 - 对每个训练子集**独立构建一棵决策树** - 决策树通常不剪枝(完全生长),形成高方差、低偏差的弱学习器 - 树的多样性来源于:① 不同的训练子集 ② 分裂时的随机性[^3] #### 3. 聚合预测(Aggregation) - **分类任务**:采用多数投票法,$y_{\text{pred}} = \text{mode}\{tree_1(x), ..., tree_T(x)\}$ - **回归任务**:采用平均值法,$y_{\text{pred}} = \frac{1}{T} \sum_{i=1}^{T} tree_i(x)$ #### 数学表达 最终预测函数为: $$ F(x) = \frac{1}{T} \sum_{t=1}^{T} f_t(x; \mathcal{D}_t) $$ 其中$\mathcal{D}_t$是第$t$棵树的训练子集,$f_t$是第$t$棵树的预测函数。 ### 算法优势 1. **方差降低**:通过聚合多棵树抵消单棵树的过拟合风险 $$ \text{Var}(F) \leq \frac{\text{Var}(f)}{T} $$ 2. **抗噪性强**:异常值仅影响部分子树 3. **天然交叉验证**:袋外样本(OOB)提供无偏估计[^4] 4. **并行化**:每棵树独立训练,适合分布式计算 ### 实现方法(Python示例) ```python from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClassifier # 创建Bagged Trees模型 model = BaggingClassifier( base_estimator=DecisionTreeClassifier(max_depth=10), # 基学习器 n_estimators=100, # 树的数量 max_samples=0.8, # 每棵树的样本比例 oob_score=True, # 启用OOB评估 random_state=42 ) # 训练与评估 model.fit(X_train, y_train) print(f"OOB准确率: {model.oob_score_:.4f}") # 袋外样本评估 print(f"测试集准确率: {model.score(X_test, y_test):.4f}") ``` ### 关键参数说明 | 参数 | 作用 | 推荐值 | |------|------|--------| | `n_estimators` | 树的数量 | 100~500 | | `max_samples` | 每棵树的样本比例 | 0.6~0.8 | | `max_features` | 特征采样比例 | $\sqrt{d}$(d为总特征数) | | `oob_score` | 启用袋外评估 | True | ### 与随机森林的关系 随机森林(Random Forest)是Bagged Trees的改进版,核心区别在于: 1. Bagged Trees使用**样本随机**,随机森林同时使用**样本随机+特征随机** 2. 随机森林在节点分裂时随机选择特征子集,进一步增加多样性[^3] 3. 随机森林通常比基础Bagged Trees具有更好的泛化能力 ### 应用场景 1. 高维数据分类(如基因表达数据) 2. 金融风险评估(多特征关联决策) 3. 医疗诊断(如肿瘤分类[^2]) 4. 需要模型稳定性的工业场景
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值