【集成学习】8 Bagging 的原理和案例分析

Bagging的思路

与voting不同,Bagging不仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。

哇偶

bagging的原理分析

bagging的核心 --> 来自于 自助采样(bootstrap)这一概念
aka 有放回的从dataset进行采样
aka 同样的一个样本可能被多次进行采样

自助采样例子:
我们希望估计全国所有人口年龄的平均值
1、在全国所有人口中随机抽取不同的集合(集合可能存在交集
2、计算每个集合的平均值
3、avg(所有聚合平均值) == 估计值

Bagging的基本流程:
  • 随机取出一个样本放入采样集合中,再把这个样本放回初识dataset
  • 重复K次
  • 最终获得一个大小为k的样本集合
  • 采样出T个含k个样本的采样集合
  • 然后基于每个采样集合,训练初一个基学习器
  • 再将这些基学习器进行结合
how
  • 回归 — 通过预测取平均值
  • 分类 — 通过对预测取多数票预测
Bagging 为什么有效

因为每个模型都是在略微不同的training data上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力。

Bagging同样是一种 降低方差的技术
因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。
在实际的使用中,加入列采样的Bagging技术对高维小样本往往又神奇的效果。

bagging的案例分析

sklearn通过两种Bagging方法

  • BaggingRegressor
  • BaggingClassifier

两种方法的默认基模型是树模型

决策树:
树的每个非叶子节点:对样本在一个特征上的判断
节点下方的分支:对样本的划分

决策树的建立过程:
一个对数据不断划分的过程,每次划分中,
1、首先要选择用于划分的特征
2、之后要确定划分的方案(类别/阈值)
我们希望通过划分,决策树的分支节点所包含的样本“纯度“尽可能地高

节点划分过程中所用的指标:

  • 信息增益
    • 衡量划分前后信息不确定性程度的减小
    • 信息不确定程度 一般使用 信息熵 来度量
    • 信息熵公式 H ( Y ) = − ∑ p i l o g p i H(Y)=−∑p_ilogp_i H(Y)=p
03-19
### IEEE 802.1Q VLAN Tagging Protocol Standard IEEE 802.1Q 是支持虚拟局域网(VLAN)的标准协议之一,通常被称为 Dot1q。该标准定义了一种用于以太网帧的 VLAN 标记系统以及交换机和桥接器处理这些标记帧的操作流程[^2]。 #### 协议结构概述 IEEE 802.1Q 的核心功能在于通过在以太网数据帧中插入特定字段来实现 VLAN 标签的功能。这种标签使得网络设备能够识别哪些流量属于哪个 VLAN,并据此执行转发决策。具体来说: - **Tag Header**: 在原始以太网帧头部增加了一个额外的 4 字节字段作为 VLAN 标签头。这四个字节包含了以下部分: - **Priority Code Point (PCP)**: 使用 3 比特表示优先级级别,范围从 0 到 7,主要用于 QoS 控制。 - **Canonical Format Indicator (CFI)**: 这是一个单比特位,在传统以太网环境中设置为零。 - **VLAN Identifier (VID)**: 使用 12 比特标识具体的 VLAN ID,理论上可以支持多达 4096 个不同的 VLAN(编号从 0 至 4095),其中某些特殊值保留给内部用途或管理目的。 #### 数据包处理机制 当一个带有 VLAN tag 的数据包进入支持 IEEE 802.1Q 的交换机时,它会依据此标签决定如何路由或者过滤该数据流。如果目标端口不属于同一 VLAN,则不会传输至其他无关联的物理接口上;反之亦然——只有相同 VLAN 成员之间才允许互相通信除非经过路由器跨网段访问[^1]。 此外,为了简化管理和配置过程并增强互操作性,还引入了一些辅助性的子协议和服务组件比如 GARP(通用属性注册协议)。GARP 可帮助分发有关 VLAN 成员资格的信息到各个连接节点以便动态调整其行为模式而无需频繁手动干预[^3]。 以下是创建带 VLAN TAG 的 Python 示例代码片段展示如何模拟构建这样的 Ethernet Frame: ```python from scapy.all import Ether, Dot1Q, IP, sendp def create_vlan_packet(src_mac="00:aa:bb:cc:dd:ee", dst_mac="ff:ff:ff:ff:ff:ff", vlan_id=100, src_ip="192.168.1.1", dst_ip="192.168.1.2"): ether = Ether(src=src_mac, dst=dst_mac) dot1q = Dot1Q(vlan=vlan_id) ip_layer = IP(src=src_ip, dst=dst_ip) packet = ether / dot1q / ip_layer return packet packet = create_vlan_packet() sendp(packet, iface="eth0") # Replace 'eth0' with your network interface name. ``` 上述脚本利用 Scapy 库生成包含指定源地址、目的地址及所属 VLAN 编号的数据报文并通过选定的网卡发送出去测试实际效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值