可视化学习笔记3:可视化分布

本文探讨了数据分布的可视化方法,包括直方图、箱线图、小提琴图和纸带记录图,解释了每种图表的特点及适用场景,帮助读者理解如何选择合适的图表来展示数据分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

有时候,显示数据的实际分布情况是最佳选择。分布图可能不是正态的!可能存在异常值,使均值出现严重的偏差。条形图等可以隐藏这些问题。你在一开始探索数据时,也需要查看分布图。

直方图

直方图是将值分组成多个值范围的条形图。例如,假设有一组年龄数据:29 岁、69 岁、44 岁、69 岁、31 岁、43 岁、32 岁、62 岁、8 岁、53 岁。你可以将年龄按每 10 岁分组,然后算出每个年龄范围的人数。如下所示:

直方图示例

从图中可以清晰地看出年龄分布情况。我给出了数据很少的示例,但是假设有成百上千个数据点。除非使用直方图,否则无法显示数据分布情况。

值的范围通常称为组距,将数据分组的过程称为分组。明显我对数据进行了分组用的是动词形式。要学会使用正确的术语,这样才能与其他分析师交流。

你将经常用到直方图来可视化连续变量的分布情况。但是,你需要了解一些信息。组距和界点的位置会显著影响到分布图的外观。

分组有个不错的属性,即对直条中的数据求平均值,这样可以减少干扰,但是如果组距太宽,分布图可能就会丢失细节信息。但是,如果组距太窄,可能就会出现太多的干扰,可能会丢失有意思的细节。此外,界点的位置会影响直方图的外观。有时候,你需要进行尝试并犯错,才能得出正确的组距。

箱线图

箱线图是一种常见的可视化图表,使用区间来显示一般分布形状。区间是大于某个百分比的数据的值。例如,50% 区间是指大于 50% 的数据的值,通常称为中间值。95% 区间是指大于 95% 的数据的值。所有箱线图都使用 25%、50% 和 75% 区间,通常称为四分位数。通常,还会使用箱须(或侧栏)来表示更大的区间,或者最小区间和最大区间。你还会经常看到箱线图显示了异常值、大于或小于箱须值的数据点。

从图中可以看出,用颜色标注区间使你能够了解潜在分布情况。如果区间在中间值两边保持对称,分布图就可能是正态的。但是,如果区间揉成一团,则表明分布图是偏斜的。

对于箱线图要谨慎使用。因为你将分布图简化成大约五个数字,有可能使非正态分布看起来像正态的。

左侧的直方图显示的是非正态分布,而右侧的箱线图使数据看起来似乎是正态的。

小提琴图

小提琴图会显示平滑的数据分布图。分布图使用一种叫做核密度估计的方法进行近似估计,你不需要了解该方法,但是该方法很神奇,你可以在此处了解详情。和箱线图相似,通常也会包含区间,但是也会显示实际数据分布。

小提琴图几乎适合所有情况。它们会展示非正态分布(箱线图则不会)。但是,平滑操作可能会丢失细节,对于少量数据来说,经常会失败。个人而言,我喜欢使用小提琴图而不是箱线图,但是有时候可能需要快速简单的分布图。

纸带记录图

很多时候,我喜欢用纸带记录图直接绘制出数据。纸带记录图用点表示每组的实际数据。如果没有太多数据,可以直接沿着直线绘制数据。如果数据很多的话,点经常会重叠,所以可以在无值维度中随机地散布数据,或者使用幻灯片。当然,如果有太多数据的话,就会让人困惑,所以纸带记录图并非适合所有情况。

可视化是一种艺术

我刚刚介绍了几种可视化分布图。你使用哪个呢?该如何从这些图表之间做出选择呢?

可视化就像一门艺术。你需要思考你有哪些问题,什么样的选择最适合回答这些问题。你还需要考虑根本数据。如果有很多的数据,纸带记录图可能就不适合了。如果有很少的数据,小提琴图和箱线图可能不适合。首先,你需要尝试几种图表,多试试并犯错。有了几次经验之后,你就更善于做出最佳选择了。

转载于:https://www.cnblogs.com/chickenwrap/p/10182781.html

基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。 智能教学辅助系统 这是一个智能教学辅助系统的前端项目,基于 Vue3+TypeScript 开发,使用 Ant Design Vue 作为 UI 组件库。 功能模块 用户模块 登录/注册功能,支持学生教师角色 毛玻璃效果的登录界面 教师模块 备课与设计:根据课程大纲自动设计教学内容 考核内容生成:自动生成多样化考核题目及参考答案 学情数据分析:自动化检测学生答案,提供数据分析 学生模块 在线学习助手:结合教学内容解答问题 实时练习评测助手:生成随练题目并纠错 管理模块 用户管理:管理员/教师/学生等用户基本管理 课件资源管理:按学科列表管理教师备课资源 大屏概览:使用统计、效率指数、学习效果等 技术栈 Vue3 TypeScript Pinia 状态管理 Ant Design Vue 组件库 Axios 请求库 ByteMD 编辑器 ECharts 图表库 Monaco 编辑器 双主题支持(专业科技风/暗黑风) 开发指南 # 安装依赖 npm install # 启动开发服务器 npm run dev # 构建生产版本 npm run build 简介 本项目旨在开发一个基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值