SVM—当样本数小于维度的时候

比如:人脸识别的时候,两个人脸的样本数分别为5,PCA降维后维度为35。

用SVM训练的模型进行分类时候,往往发现线性核要比高斯核正确率高。这是为什么?

我想到的原因如下,并不一定正确,欢迎网友指正:

(1)一般来说,当选取高斯核函数时候,训练得到的函数(就是那个分类超平面)可以以任意高的精度逼近给定的连续函数,这意味着用高斯核的效果至少不会比线性核差。但是问题在于,g值的选择会对得到的分类超平面有很大的影响,能否选择到合适的g就决定了分类器的效果。当选择的g不好的时候,效果比线性核差也是合理的。

(2)当样本数比维度少的时候,在原始的样本空间上,样本一定是线性可分的,一定可以找到那样的超平面,但是有一个前提,样本在原始空间上不能够同在一个超平面上。比如三维情况下,两个类别的样本都只有两个,只要这四个样本不在一个平面上,就一定可以找到一个超平面将他们分开(我没有找到数学上的证明,也不太确定是否真的正确,希望有网友可以证明下)。就是说,样本的维度为n,只要样本不要全部都分布在同一个超平面上,就可在n维上找一个超平面将他们分开。但是在这种特殊情况下需要注意的是,原始样本空间可以线性可分,并不意味着用线性核训练得到的超平面就一定好。因为样本太少,它很可能没有办法充分体现该类别的分布,会出现欠学习的现象。当然利用高斯核得到的超平面可能会比较好,但是也可能更差(原因如上)。


说到这里,让我回想起高斯核的作用不就是把样本的维度映射到更高维度而实现线性可分的吗?当维度本来就远比样本数多,相对样本数,可以说已经处于高维了,岂不是也可以线性可分了呢?当然我觉得略有不同,但是意思可能是差不多的。

当然很多问题中,比如维度过高,或者样本海量的情况下,大家更倾向于用线性核,因为效果相当,但是在速度和模型大小方面,线性核会有更好的表现。

如果可以,最好能够选择比较有代表性的样本,它会训练后得到更好的分类器。

03-19
### IEEE 802.1Q VLAN Tagging Protocol Standard IEEE 802.1Q 是支持虚拟局域网(VLAN)的标准协议之一,通常被称为 Dot1q。该标准定义了一种用于以太网帧的 VLAN 标记系统以及交换机和桥接器处理这些标记帧的操作流程[^2]。 #### 协议结构概述 IEEE 802.1Q 的核心功能在于通过在以太网数据帧中插入特定字段来实现 VLAN 标签的功能。这种标签使得网络设备能够识别哪些流量属于哪个 VLAN,并据此执行转发决策。具体来说: - **Tag Header**: 在原始以太网帧头部增加了一个额外的 4 字节字段作为 VLAN 标签头。这四个字节包含了以下部分: - **Priority Code Point (PCP)**: 使用 3 比特表示优先级级别,范围从 0 到 7,主要用于 QoS 控制。 - **Canonical Format Indicator (CFI)**: 这是一个单比特位,在传统以太网环境中设置为零。 - **VLAN Identifier (VID)**: 使用 12 比特标识具体的 VLAN ID,理论上可以支持多达 4096 个不同的 VLAN(编号从 0 至 4095),其中某些特殊值保留给内部用途或管理目的。 #### 数据包处理机制 当一个带有 VLAN tag 的数据包进入支持 IEEE 802.1Q 的交换机时,它会依据此标签决定如何路由或者过滤该数据流。如果目标端口不属于同一 VLAN,则不会传输至其他无关联的物理接口上;反之亦然——只有相同 VLAN 成员之间才允许互相通信除非经过路由器跨网段访问[^1]。 此外,为了简化管理和配置过程并增强互操作性,还引入了一些辅助性的子协议和服务组件比如 GARP(通用属性注册协议)。GARP 可帮助分发有关 VLAN 成员资格的信息到各个连接节点以便动态调整其行为模式而无需频繁手动干预[^3]。 以下是创建带 VLAN TAG 的 Python 示例代码片段展示如何模拟构建这样的 Ethernet Frame: ```python from scapy.all import Ether, Dot1Q, IP, sendp def create_vlan_packet(src_mac="00:aa:bb:cc:dd:ee", dst_mac="ff:ff:ff:ff:ff:ff", vlan_id=100, src_ip="192.168.1.1", dst_ip="192.168.1.2"): ether = Ether(src=src_mac, dst=dst_mac) dot1q = Dot1Q(vlan=vlan_id) ip_layer = IP(src=src_ip, dst=dst_ip) packet = ether / dot1q / ip_layer return packet packet = create_vlan_packet() sendp(packet, iface="eth0") # Replace 'eth0' with your network interface name. ``` 上述脚本利用 Scapy 库生成包含指定源地址、目的地址及所属 VLAN 编号的数据报文并通过选定的网卡发送出去测试实际效果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值