数据分析

数据分析

简介

每个数据分析都包含一些标准的活动:

  • 预处理 - 考虑离群值以及缺失值,并对数据进行平滑处理以便确定可能的模型。
  • 汇总 - 计算基本的统计信息以描述数据的总体位置、规模及形状。
  • 可视化 - 绘制数据以便确定模式和趋势。
  • 建模 - 更全面地描述数据趋势,以便预测新数据值。

数据分析通过这些活动,以实现两个基本目标:

  1. 使用简单模型来描述数据中的模式,以便实现正确预测。
  2. 了解变量之间的关系,以便构建模型。

此部分说明如何在 MATLAB® 环境中执行基本数据分析。

数据的预处理

通过将数据加载到合适的 MATLAB® 容器变量并区分“正确”数据和“错误”数据,开始数据分析。这是初级步骤,可确保在后续的分析过程中得出有意义的结论。

isnan  判断查询数组元素是否包含 NaN 值

加载数据

首先加载 count.dat 中的数据:

load count.dat

这个 24×3 数组 count 包含三个十字路口(列)在一天中的每小时流量统计(行)。

缺失数据

MATLAB NaN(非数字)值通常用于表示缺失数据。通过 NaN 值,缺失数据的变量可以维护其结构体 - 在本示例中,即在所有三个十字路口中的索引都是一致的 24×1 向量。

使用 isnan 函数检查第三个十字路口的数据是否存在 NaN 值:

c3 = count(:,3); % Data at intersection 3
c3NaNCount = sum(isnan(c3))

c3NaNCount = 0

isnan 返回一个大小与 c3 相同的逻辑向量,并且通过相应条目指明数据中 24 个元素内的每个元素是存在 (1) 还是缺少 (0NaN 值。在本示例中,逻辑值总和为 0,因此数据中没有 NaN 值。

离群值部分的数据中引入了 NaN 值。

离群值

离群值是与其余数据中的模式明显不同的数据值。离群值可能由计算错误所致,也可能表示数据的重要特点。根据对数据及数据源的了解,确定离群值并决定其处理方法。

确定离群值的一种常用方法是查找与均值  的标准差  大于某个数字的值。下面的代码绘制第三个十字路口的数据直方图以及  和  () 处的直线:

h = histogram(c3,10); % Histogram
N = max(h.Values); % Maximum bin count
mu3 = mean(c3); % Data mean
sigma3 = std(c3); % Data standard deviation

hold on
plot([mu3 mu3],[0 N],'r','LineWidth',2) % Mean
X = repmat(mu3+(1:2)*sigma3,2,1);
Y = repmat([0;N],1,2);
plot(X,Y,'Color',[255 153 51]./255,'LineWidth',2) % Standard deviations
legend('Data','Mean','Stds')
hold off

此绘图表明某些数据比均值大两个标准差以上。如果将这些数据标识为错误(而非特点),请将其替换为 NaN 值,如下所示:

outliers = (c3 - mu3) > 2*sigma3;
c3m = c3; % Copy c3 to c3m
c3m(outliers) = NaN; % Add NaN values

平滑和筛选

第三个十字路口的数据时序图(已在离群值中删除该离群值)生成以下绘图:

plot(c3m,'o-')
hold on

在绘图中,第 20 个小时的 NaN 值出现间隔。这种对 NaN 值的处理方式是 MATLAB 绘图函数所特有的。

噪音数据围绕预期值显示随机变化。您可能希望在构建模型之前对数据进行平滑处理,以便显示其主要特点。平滑处理应当以下面两个基本假定为基础:

- 预测变量(时间)和响应(流量)之间的关系平稳。

- 由于已减少噪音,因此平滑算法生成比预期值更好的估计值。

使用 MATLAB convn 函数对数据应用简单移动平均平滑法:

span = 3; % Size of the averaging window
window = ones(span,1)/span; 
smoothed_c3m = convn(c3m,window,'same');

h = plot(smoothed_c3m,'ro-');
legend('Data','Smoothed Data')

使用变量 span 控制平滑范围。当平滑窗口在数据中包含 NaN 值时,平均值计算返回 NaN 值,从而增大平滑数据中的间隔大小。

此外,还可以对平滑数据使用 filter 函数:

smoothed2_c3m = filter(window,1,c3m);

delete(h)
plot(smoothed2_c3m,'ro-','DisplayName','Smoothed Data');

平滑数据在以上绘图的基础上发生了偏移。带有 'same' 参数的 convn 返回卷积的中间部分,其长度与数据相同。filter 返回卷积的开头,其长度与数据相同。否则算法相同。

平滑处理可估计预测变量的每个值的响应值分布的中心。它使许多拟合算法的基本假定无效,即预测器的每个值的错误彼此独立。相应地,您可以使用平滑数据确定模型,但应避免使用平滑数据拟合模型。

 

 

 

 

1. 用户与权限管理模块 角色管理: 学生:查看实验室信息、预约设备、提交耗材申请、参与安全考核 教师:管理课题组预约、审批学生耗材申请、查看本课题组使用记录 管理员:设备全生命周期管理、审核预约、耗材采购与分发、安全检查 用户操作: 登录认证:统一身份认证(对接学号 / 工号系统,模拟实现),支持密码重置 信息管理:学生 / 教师维护个人信息(联系方式、所属院系),管理员管理所有用户 权限控制:不同角色仅可见对应功能(如学生不可删除设备信息) 2. 实验室与设备管理模块 实验室信息管理: 基础信息:实验室编号、名称、位置、容纳人数、开放时间、负责人 功能分类:按学科(计算机实验室 / 电子实验室 / 化学实验室)标记,关联可开展实验类型 状态展示:实时显示当前使用人数、设备运行状态(正常 / 故障) 设备管理: 设备档案:名称、型号、规格、购置日期、单价、生产厂家、存放位置、责任人 全生命周期管理: 入库登记:管理员录入新设备信息,生成唯一资产编号 维护记录:记录维修、校准、保养信息(时间、内容、执行人) 报废处理:登记报废原因、时间,更新设备状态为 "已报废" 设备查询:支持按名称、型号、状态多条件检索,显示设备当前可用情况 3. 预约与使用模块 预约管理: 预约规则:学生可预约未来 7 天内的设备 / 实验室,单次最长 4 小时(可设置) 预约流程:选择实验室→选择设备→选择时间段→提交申请(需填写实验目的) 审核机制:普通实验自动通过,高危实验(如化学实验)需教师审核 使用记录: 签到 / 签退:到达实验室后扫码签到,离开时签退,系统自动记录实际使用时长 使用登记:填写实验内容、设备运行情况(正常 / 异常),异常情况需详细描述 违规管理:迟到 15 分钟自动取消预约,多次违规限制预约权限 4. 耗材与安全管理模块 耗材管理: 耗材档案:名称、规格、数量、存放位置、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值