数据分析学习的一般步骤

本文探讨了数据准备中的挑战,包括数据清洗、关系型与非关系型数据库的选择,以及数据预处理、特征工程、模型训练(如分类、聚类)和评估的全面流程。强调了评估指标和模型在实际应用中的考量因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据准备

数据不完美

  • 数据残缺
  • 语言
  • 信息不对等
  • 把握数据
    是否有数据
    有多少数据
    是什么样的数据
    标签
    推荐书籍《非暴力沟通》《 高难度沟通》

准备数据
重要且费时

  • 关系型数据库MySQL
  • 大数据Hbase.HIVE
  • 搜索引擎数据库ES
  • 内存数据库Redis
  • 图数据库NEO4j、Janus Graph

数据探索
分析、预处理、转换

  • 数据变多
    分词、统计、特殊信息
  • 数据升维

数据清洗

  • 缺失值的处理
  • 异常值处理
  • 数据偏差的处理
    是否允许、确实原因、如何补充
    过拟合:训练集√ 测试集× 验证集×
    欠拟合:训练集× 测试集×

数据标准化

  • 特征选择
    维度越多,数据就会越稀疏,可解释性变差,可信度降低
  • 构建训练集与测试集
    方法
    1.留出法
    2.交叉验证法
    3.自助法

模型训练

分类问题
二分类
多分类
多标签分类
聚类问题
聚类是把一个数据集划分为多个的过程
互斥
相交
层次
模糊
回归问题
Regression回归
关联问题

模型集成
Bagging(装袋法)
Boosting(增强法)
Stacking(堆叠法)
模型评估

  • 评估指标–混淆矩阵与准确率指标

    矩阵数值:
    真阳性
    真阴性
    假阳性
    假阴性
    准确率
    精确率
    召回率
    F值
    ROC曲线和AUC值
    真正例率和假正例率

  • 业务抽样评估

  • 泛化能力评估

  • 模型速度

  • 鲁棒性

  • 可解释性

评估数据的处理
随机抽样
随机多次抽样
交叉验证
自助法

模型应用

离线应用还是在线应用?
模型的监控
结果监控
人工定期复审
Case收集与样本积累

03-19
### IEEE 802.1Q VLAN Tagging Protocol Standard IEEE 802.1Q 是支持虚拟局域网(VLAN)的标准协议之一,通常被称为 Dot1q。该标准定义了一种用于以太网帧的 VLAN 标记系统以及交换机和桥接器处理这些标记帧的操作流程[^2]。 #### 协议结构概述 IEEE 802.1Q 的核心功能在于通过在以太网数据帧中插入特定字段来实现 VLAN 标签的功能。这种标签使得网络设备能够识别哪些流量属于哪个 VLAN,并据此执行转发决策。具体来说: - **Tag Header**: 在原始以太网帧头部增加了一个额外的 4 字节字段作为 VLAN 标签头。这四个字节包含了以下部分: - **Priority Code Point (PCP)**: 使用 3 比特表示优先级级别,范围从 0 到 7,主要用于 QoS 控制。 - **Canonical Format Indicator (CFI)**: 这是一个单比特位,在传统以太网环境中设置为零。 - **VLAN Identifier (VID)**: 使用 12 比特标识具体的 VLAN ID,理论上可以支持多达 4096 个不同的 VLAN(编号从 0 至 4095),其中某些特殊值保留给内部用途或管理目的。 #### 数据包处理机制 当一个带有 VLAN tag 的数据包进入支持 IEEE 802.1Q 的交换机时,它会依据此标签决定如何路由或者过滤该数据流。如果目标端口不属于同一 VLAN,则不会传输至其他无关联的物理接口上;反之亦然——只有相同 VLAN 成员之间才允许互相通信除非经过路由器跨网段访问[^1]。 此外,为了简化管理和配置过程并增强互操作性,还引入了一些辅助性的子协议和服务组件比如 GARP(通用属性注册协议)。GARP 可帮助分发有关 VLAN 成员资格的信息到各个连接节点以便动态调整其行为模式而无需频繁手动干预[^3]。 以下是创建带 VLAN TAG 的 Python 示例代码片段展示如何模拟构建这样的 Ethernet Frame: ```python from scapy.all import Ether, Dot1Q, IP, sendp def create_vlan_packet(src_mac="00:aa:bb:cc:dd:ee", dst_mac="ff:ff:ff:ff:ff:ff", vlan_id=100, src_ip="192.168.1.1", dst_ip="192.168.1.2"): ether = Ether(src=src_mac, dst=dst_mac) dot1q = Dot1Q(vlan=vlan_id) ip_layer = IP(src=src_ip, dst=dst_ip) packet = ether / dot1q / ip_layer return packet packet = create_vlan_packet() sendp(packet, iface="eth0") # Replace 'eth0' with your network interface name. ``` 上述脚本利用 Scapy 库生成包含指定源地址、目的地址及所属 VLAN 编号的数据报文并通过选定的网卡发送出去测试实际效果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值