✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。
🍎个人主页:Matlab科研工作室
🍊个人信条:格物致知,求助可私信。
🔥 内容介绍
摘要: 信息论是研究信息量化、存储和传输的数学理论,其核心概念如熵、互信息等在诸多领域中扮演着至关重要的角色。然而,直接计算的信息论量往往受到样本容量、数据分布特性以及系统复杂度的影响,难以进行跨数据集、跨系统的有效比较。为了解决这一问题,基于信息论的零模型进行信息论量的归一化处理成为一种常用的技术手段。本文旨在探讨基于零模型的信息论量归一化技术,并分析其理论基础、实现方法以及在数据分析中的应用价值。
引言:
信息论以其严谨的数学框架,为我们理解和量化信息提供了强大的工具。在生物信息学、网络科学、金融分析等众多领域,信息论的应用日益广泛。例如,在基因组研究中,熵可以用来衡量基因表达的多样性;在社交网络分析中,互信息可以用来揭示用户之间的信息传递模式。然而,直接计算的信息论量通常受到多种因素的影响,使得其数值难以直接进行比较,也难以揭示其内在的结构性信息。例如,两个数据集即使拥有相同的结构模式,由于样本容量不同,其计算的熵值可能存在显著差异。此外,数据的分布特性也会影响熵值的取值,高度偏态的数据通常会产生较低的熵值。为了克服这些问题,对信息论量进行归一化处理显得尤为重要。基于零模型的归一化方法,通过建立一个随机的、无结构的参考模型,可以有效地消除这些偏差,从而使得信息论量更具可比性,更能够反映数据本身的结构特征。
信息论量的基本概念:
在讨论零模型归一化技术之前,有必要简要回顾一些关键的信息论概念:
-
熵 (Entropy): 熵是衡量一个随机变量不确定性的度量,它反映了一个系统中信息的平均含量。对于离散随机变量 X,其熵 H(X) 定义为:
H(X) = - Σ p(xi) log2 p(xi)
其中 p(xi) 是随机变量 X 取值 xi 的概率。熵值越高,表示系统的不确定性越大,信息量越丰富。
-
联合熵 (Joint Entropy): 联合熵衡量两个或多个随机变量的联合不确定性。对于两个随机变量 X 和 Y,其联合熵 H(X,Y) 定义为:
H(X,Y) = - ΣΣ p(xi,yj) log2 p(xi,yj)
其中 p(xi,yj) 是随机变量 X 取值 xi 且 Y 取值 yj 的联合概率。
-
条件熵 (Conditional Entropy): 条件熵衡量在已知一个随机变量的条件下,另一个随机变量的不确定性。对于两个随机变量 X 和 Y,在已知 X 的条件下 Y 的条件熵 H(Y|X) 定义为:
H(Y|X) = - ΣΣ p(xi,yj) log2 p(yj|xi)
其中 p(yj|xi) 是在已知 X 取值 xi 的条件下 Y 取值 yj 的条件概率。
-
互信息 (Mutual Information): 互信息衡量两个随机变量之间的信息共享程度,即已知一个随机变量能减少另一个随机变量多少不确定性。互信息 I(X;Y) 可以表示为:
I(X;Y) = H(X) + H(Y) - H(X,Y)
或者等价地,
I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
零模型的概念与构建:
零模型是一种随机的、无结构的参考模型,它在保留原始数据某些基本特征的同时,消除了其结构信息。零模型的构建旨在产生一个与原始数据具有相似统计特征,但结构上随机的对照组。这样,通过比较原始数据和零模型计算得到的信息论量,我们可以有效地分离出由于结构信息导致的偏差,从而得到归一化的信息论量。
常见的零模型构建方法包括:
-
随机化置换 (Randomization): 这种方法通过随机置换原始数据的元素或连接来构建零模型。例如,对于一个序列数据,可以随机打乱元素的顺序;对于一个网络数据,可以随机重连节点之间的连边。这种方法能够保持原始数据元素的频数或连边数量,但破坏了其内在的结构信息。
-
概率模型 (Probability Model): 这种方法基于某种概率分布来生成零模型。例如,在网络分析中,可以使用配置模型来生成具有相同节点度分布的随机网络。这种方法能够控制零模型的统计特性,使其更接近原始数据,从而产生更准确的归一化结果。
-
其他方法: 还有一些其他零模型构建方法,例如基于马尔可夫链的零模型、基于自举法的零模型等,它们可以根据不同的数据类型和研究问题进行选择。
基于零模型的归一化方法:
基于零模型的归一化方法通常采用以下步骤:
-
计算原始数据的信息论量: 首先计算原始数据的熵、互信息等信息论量。
-
构建零模型: 根据原始数据的特征选择合适的零模型构建方法。
-
计算零模型的信息论量: 计算零模型的熵、互信息等信息论量。通常,需要多次生成零模型并计算其信息论量的均值或分布,以提高归一化结果的稳定性。
-
归一化处理: 根据原始数据和零模型的信息论量,计算归一化的信息论量。常用的归一化方法包括:
-
Z-score 归一化: 将原始数据的信息论量减去零模型的均值,并除以零模型的标准差。
Z = (I_obs - <I_null>) / std(I_null)
其中 I_obs 是原始数据的信息论量,<I_null> 是零模型的均值,std(I_null) 是零模型的标准差。 -
标准化差异: 将原始数据的信息论量减去零模型的均值,并除以原始数据的信息论量。
Norm_diff = (I_obs - <I_null>) / I_obs
-
百分位数归一化: 计算原始数据的信息论量在零模型分布中的百分位数。
-
应用实例:
基于零模型的归一化技术广泛应用于各种数据分析场景,以下列举几个例子:
-
基因表达分析: 在基因表达分析中,可以直接计算基因表达数据的熵值,但由于样本量和基因表达水平的差异,这些熵值难以直接比较。通过构建随机置换的零模型,可以得到归一化的熵值,从而更好地揭示基因表达的复杂性和多样性。
-
社交网络分析: 在社交网络中,计算用户之间的互信息可以揭示信息传递的模式。通过构建随机重连的网络零模型,可以得到归一化的互信息,从而更准确地识别网络中重要的信息传递路径。
-
时间序列分析: 在时间序列分析中,可以计算时间序列的熵值来衡量其复杂性。通过构建基于马尔可夫链的零模型,可以得到归一化的熵值,从而更好地比较不同时间序列的复杂程度。
优点与局限性:
基于零模型的归一化技术具有以下优点:
-
消除偏差: 可以有效地消除由于样本容量、数据分布特性等因素导致的偏差。
-
增强可比性: 使得不同数据集、不同系统的信息论量更具可比性。
-
揭示结构信息: 能够突出数据本身的结构信息,从而更好地理解数据背后的规律。
然而,该技术也存在一定的局限性:
-
零模型的选择: 零模型的选择直接影响归一化的结果,选择合适的零模型需要根据具体的数据类型和研究问题进行考虑。
-
计算成本: 构建零模型并计算其信息论量通常需要较大的计算量。
-
统计推断: 对归一化后的信息论量进行统计推断需要谨慎,因为零模型本身也存在一定的随机性。
结论:
基于信息论的零模型对信息论量进行归一化处理是一种重要的数据分析技术。通过构建一个随机的参考模型,可以有效地消除偏差,使得信息论量更具可比性,更能够反映数据的结构特征。该技术在基因组学、网络科学、金融分析等众多领域具有广泛的应用前景。随着信息论理论的不断发展和计算能力的不断提高,基于零模型的归一化技术将会在未来的数据分析中发挥越来越重要的作用。然而,在应用该技术时,需要根据具体的数据类型和研究问题选择合适的零模型构建方法,并谨慎地进行统计推断,以保证结果的可靠性。未来的研究可以进一步探讨更加鲁棒和高效的零模型构建方法,并探索该技术在更广泛领域中的应用潜力。
📣 部分代码
%% GAUSSIAN EXMAPLE USAGE
% Calculate NuMIT-normalised atoms for a Gaussian system with 'red_fun' definition
% choose PID definition
red_fun = "CCS";
if red_fun=="MMI", PID_Gaussian = @PID_MMI_Gaussian;
elseif red_fun=="DEP", PID_Gaussian = @PID_DEP_Gaussian;
elseif red_fun=="CCS", PID_Gaussian = @PID_CCS_Gaussian;
end
% consider a "real" Gaussian system T=A*S+epsilon and its PID atoms
% here we take a as an example a predominantly redundant one with S=2, T=1
A = [0.45, 0.45];
eps = 0.00001;
Sigma_s = [1, 1-eps; 1-eps, 1];
Sigma_eps = 1;
% calculate PID
Sigma_t = A*Sigma_s*A'+Sigma_eps;
Sigma_full = [Sigma_s, (A*Sigma_s)'; A*Sigma_s, Sigma_t];
MI = entropy(Sigma_t)+entropy(Sigma_s)-entropy(Sigma_full);
[UnX, UnY, Red, Syn] = PID_Gaussian(Sigma_full,2,1);
% set the appropriate model
model = struct('name',"Gauss",'n',100,'S',2,'T',1,'red_fun',red_fun);
% normalise these atoms using NuMIT
[qUnX, qUnY, qRed, qSyn] = NuMIT_PID(UnX, UnY, Red, Syn,MI,model);
% print the results
fprintf("The quantiles obtained are:\nUnique X = %f\nUnique Y = %f," + ...
"\nRedundancy = %f,\nSynergy = %f\n\n", qUnX, qUnY, qRed, qSyn);
function H = entropy(Sigma)
arg = det(2*pi*exp(1)*Sigma);
H = 0.5*log(arg);
end
⛳️ 运行结果
🔗 参考文献
🎈 部分理论引用网络文献,若有侵权联系博主删除
👇 关注我领取海量matlab电子书和数学建模资料
🎁 私信完整代码和数据获取及论文数模仿真定制
🌿 往期回顾可以关注主页,点击搜索
🏆团队擅长辅导定制多种科研领域MATLAB仿真,助力科研梦:
🌈 各类智能优化算法改进及应用
生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化、背包问题、 风电场布局、时隙分配优化、 最佳分布式发电单元分配、多阶段管道维修、 工厂-中心-需求点三级选址问题、 应急生活物质配送中心选址、 基站选址、 道路灯柱布置、 枢纽节点部署、 输电线路台风监测装置、 集装箱调度、 机组优化、 投资优化组合、云服务器组合优化、 天线线性阵列分布优化、CVRP问题、VRPPD问题、多中心VRP问题、多层网络的VRP问题、多中心多车型的VRP问题、 动态VRP问题、双层车辆路径规划(2E-VRP)、充电车辆路径规划(EVRP)、油电混合车辆路径规划、混合流水车间问题、 订单拆分调度问题、 公交车的调度排班优化问题、航班摆渡车辆调度问题、选址路径规划问题、港口调度、港口岸桥调度、停机位分配、机场航班调度、泄漏源定位
🌈 机器学习和深度学习时序、回归、分类、聚类和降维
2.1 bp时序、回归预测和分类
2.2 ENS声神经网络时序、回归预测和分类
2.3 SVM/CNN-SVM/LSSVM/RVM支持向量机系列时序、回归预测和分类
2.4 CNN|TCN|GCN卷积神经网络系列时序、回归预测和分类
2.5 ELM/KELM/RELM/DELM极限学习机系列时序、回归预测和分类
2.6 GRU/Bi-GRU/CNN-GRU/CNN-BiGRU门控神经网络时序、回归预测和分类
2.7 ELMAN递归神经网络时序、回归\预测和分类
2.8 LSTM/BiLSTM/CNN-LSTM/CNN-BiLSTM/长短记忆神经网络系列时序、回归预测和分类
2.9 RBF径向基神经网络时序、回归预测和分类
2.10 DBN深度置信网络时序、回归预测和分类
2.11 FNN模糊神经网络时序、回归预测
2.12 RF随机森林时序、回归预测和分类
2.13 BLS宽度学习时序、回归预测和分类
2.14 PNN脉冲神经网络分类
2.15 模糊小波神经网络预测和分类
2.16 时序、回归预测和分类
2.17 时序、回归预测预测和分类
2.18 XGBOOST集成学习时序、回归预测预测和分类
2.19 Transform各类组合时序、回归预测预测和分类
方向涵盖风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、用电量预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断
🌈图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知
🌈 路径规划方面
旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、 充电车辆路径规划(EVRP)、 双层车辆路径规划(2E-VRP)、 油电混合车辆路径规划、 船舶航迹规划、 全路径规划规划、 仓储巡逻
🌈 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配、无人机安全通信轨迹在线优化、车辆协同无人机路径规划
🌈 通信方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化、水声通信、通信上传下载分配
🌈 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化、心电信号、DOA估计、编码译码、变分模态分解、管道泄漏、滤波器、数字信号处理+传输+分析+去噪、数字信号调制、误码率、信号估计、DTMF、信号检测
🌈电力系统方面
微电网优化、无功优化、配电网重构、储能配置、有序充电、MPPT优化、家庭用电
🌈 元胞自动机方面
交通流 人群疏散 病毒扩散 晶体生长 金属腐蚀
🌈 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合、SOC估计、阵列优化、NLOS识别
🌈 车间调度
零等待流水车间调度问题NWFSP 、 置换流水车间调度问题PFSP、 混合流水车间调度问题HFSP 、零空闲流水车间调度问题NIFSP、分布式置换流水车间调度问题 DPFSP、阻塞流水车间调度问题BFSP
👇