从自来水涨价看中位数与平均值

今天从微博上看到一则消息:

【中国水务董事长:水价至少要上涨十倍才行】“水价要提高到30元到40元一吨才行,我坚决支持水价上涨。”中国水务董事长王文柯表示。在他看来,通过较高的水价收费,能够有效遏制生活和工业中的水资源浪费:“目前用水成本在家庭开支中占比小,没有家庭因为交水费而交穷的。

感慨下物价飞涨,政策乱行的同时,老陆评论:当前在新加坡每个月水电费需要1000大洋。

于是乎好奇咨询了下新加坡的居民平均收入,答曰:“中位数在35000”。在疑惑其为何不答平均值情况下,简单搜集了相关资料,现整理如下:

 

1、什么叫做中位数,什么叫做平均值?

 

中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。简单的说,有一半数比Me大,另一半比Me小。

而平均值呢,不难理解,就是把所有的数据样本求和,然后除以样本的个数。

 

2、中位数与平均值有什么关系?

 

从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。

2012年5月份的时候,西南财经大学发布了《中国家庭金融调查报告》,数据显示中国城市家庭资产平均247万元,自有住房拥有率为89.68%,遭到网友质疑。又比如:有两户人家,其中一户年家庭收入为1000万,而另外一户人家年家庭收入为1万,从两户人家取平均,可以得出结论:年平均家庭收入为500.5万。不难看出“平均值”带有一定的“欺诈性”。

学过数理统计的同学,应该会对正态分布曲线印象深刻:


只有当数据本身符合正态分布的统计特性,平均数才能代表绝大多数人的情形,否则当数据分布本身不符合这一规律时,平均值就不能反映绝大多数人的真实情况,对于这类情形,相比平均值,中位数更能说明问题。而相关统计同样给出了中位数的结果,与家庭资产247万这一平均值对应的中位数为40.5万,相信假如以这一数值作为参照,绝大多数公众并不会有太多异议,调查的样本与客观性本身也不会受到太多的质疑。

换言之,当我们看到一个统计报告上显示“平均值”时,我们第一个应该质疑的就是——数据样本是否是正态分布的?

 

3、如何判断数据满足正态分布?


当前判断正态分布的方法可以在spss(Statistical Package for the Social Sciences,即“社会科学统计软件包”)里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下:Analyze-----Descriptive Statistics-----Frequencies,打开频数统计对话框,在Statistics里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With norma curve),这样我们可以直观观察该组数据是否大致符合正态分布。如下图:


从正态分布的定义来讲,只有当随机变量X服从一个数学期望为μ、标准方差为σ2情况下,才称为正态分布。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值。

对于普通百姓而言,很多情况下是获取不到这些样本数据的,无法论证其统计数据是否满足正态分布,更无法去求其数学期望μ,因此看“中位数”不失为一种好的选择。

 

参考资料:

1、  《MBA智库 中位数》http://wiki.mbalib.com/wiki/%E4%B8%AD%E4%BD%8D%E6%95%B0

2、  《高富帅的“平均值”与屌丝的“中位数”》http://review.jschina.com.cn/system/2012/05/17/013357752.shtml

3、  《正态分布》http://wiki.mbalib.com/wiki/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

下载方式:https://pan.quark.cn/s/a4b39357ea24 在纺织制造领域中,纱线的品质水平对最终制成品的整体质量具有决定性作用。 鉴于消费者对于产品规格和样式要求的不断变化,纺织制造工艺的执行过程日益呈现为一种更为复杂的操作体系,进而导致对纱线质量进行预测的任务变得更加困难。 在众多预测技术中,传统的预测手段在面对多变量间相互交织的复杂关系时,往往显得力不从心。 因此,智能计算技术在预测纱线质量的应用场景中逐渐占据核心地位,其中人工神经网络凭借其卓越的非线性映射特性以及自适应学习机制,成为了众多预测方法中的一种重要选择。 在智能计算技术的范畴内,粒子群优化算法(PSO)和反向传播神经网络(BP神经网络)是两种被广泛采用的技术方案。 粒子群优化算法是一种基于群体智能理念的优化技术,它通过模拟鸟类的群体觅食行为来寻求最优解,该算法因其操作简便、执行高效以及具备优秀的全局搜索性能,在函数优化、神经网络训练等多个领域得到了普遍应用。 反向传播神经网络则是一种由多层节点构成的前馈神经网络,它通过误差反向传播的机制来实现网络权重和阈值的动态调整,从而达成学习预测的目标。 在实际操作层面,反向传播神经网络因其架构设计简洁、实现过程便捷,因此被广泛部署于各类预测和分类任务之中。 然而,该方法也存在一些固有的局限性,例如容易陷入局部最优状态、网络收敛过程缓慢等问题。 而粒子群优化算法在参神经网络优化时,能够显著增强神经网络的全局搜索性能并提升收敛速度,有效规避神经网络陷入局部最优的困境。 将粒子群优化算法反向传播神经网络相结合形成的PSO-BP神经网络,通过运用粒子群优化算法对反向传播神经网络的权值和阈值进行精细化调整,能够在预测纱线断裂强度方面,显著提升预测结果的...
植物实例分割数据集 一、基础信息 数据集名称:植物实例分割数据集 图片数量: - 训练集:9,600张图片 - 验证集:913张图片 - 测试集:455张图片 总计:10,968张图片 分类类别:59个类别,对应数字标签0至58,涵盖多种植物状态或特征。 标注格式:YOLO格式,适用于实例分割任务,包含多边形标注点。 数据格式:图像文件,来源于植物图像数据库,适用于计算机视觉任务。 二、适用场景 • 农业植物监测AI系统开发:数据集支持实例分割任务,帮助构建能够自动识别植物特定区域并分类的AI模型,辅助农业专家进行精准监测和分析。 • 智能农业应用研发:集成至农业管理平台,提供实时植物状态识别功能,为作物健康管理和优化种植提供数据支持。 • 学术研究农业创新:支持植物科学人工智能交叉领域的研究,助力发表高水平农业AI论文。 • 农业教育培训:数据集可用于农业院校或培训机构,作为学生学习植物图像分析和实例分割技术的重要资源。 三、数据集优势 • 精准标注多样性:标注采用YOLO格式,确保分割区域定位精确;包含59个类别,覆盖多种植物状态,具有高度多样性。 • 数据量丰富:拥有超过10,000张图像,大规模数据支持模型充分学习和泛化。 • 任务适配性强:标注兼容主流深度学习框架(如YOLO、Mask R-CNN等),可直接用于实例分割任务,并可能扩展到目标检测或分类等任务。
室内物体实例分割数据集 一、基础信息 • 数据集名称:室内物体实例分割数据集 • 图片数量: 训练集:4923张图片 验证集:3926张图片 测试集:985张图片 总计:9834张图片 • 训练集:4923张图片 • 验证集:3926张图片 • 测试集:985张图片 • 总计:9834张图片 • 分类类别: 床 椅子 沙发 灭火器 人 盆栽植物 冰箱 桌子 垃圾桶 电视 • 床 • 椅子 • 沙发 • 灭火器 • 人 • 盆栽植物 • 冰箱 • 桌子 • 垃圾桶 • 电视 • 标注格式:YOLO格式,包含实例分割的多边形标注,适用于实例分割任务。 • 数据格式:图片为常见格式如JPEG或PNG。 二、适用场景 • 实例分割模型开发:适用于训练和评估实例分割AI模型,用于精确识别和分割室内环境中的物体,如家具、电器和人物。 • 智能家居物联网:可集成到智能家居系统中,实现自动物体检测和场景理解,提升家居自动化水平。 • 机器人导航交互:支持机器人在室内环境中的物体识别、避障和交互任务,增强机器人智能化应用。 • 学术研究教育:用于计算机视觉领域实例分割算法的研究教学,助力AI模型创新验证。 三、数据集优势 • 类别多样性:涵盖10个常见室内物体类别,包括家具、电器、人物和日常物品,提升模型在多样化场景中的泛化能力。 • 精确标注质量:采用YOLO格式的多边形标注,确保实例分割边界的准确性,适用于精细的物体识别任务。 • 数据规模充足:提供近万张标注图片,满足模型训练、验证和测试的需求,支持稳健的AI开发。 • 任务适配性强:标注格式兼容主流深度学习框架(如YOLO系列),便于快速集成到实例分割项目中,提高开发效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值