使用ggplot2进行数据可视化
1. 引入ggplot2
通过图表传达信息往往比单独使用表格更有效且更具视觉吸引力。毕竟,人类处理视觉信息的速度要快得多,比如在图像中识别汽车。在构建机器学习(ML)模型时,我们通常会关注训练和测试损失曲线,它以折线图的形式展示了随着模型训练时间的延长,训练集和测试集损失的减少情况。观察性能指标有助于我们更好地诊断模型是欠拟合还是过拟合,即当前模型是过于简单还是过于复杂。
测试集用于近似未来的数据集,最小化测试集误差有助于模型对新数据集进行泛化,这种方法称为经验风险最小化。欠拟合是指由于拟合能力不足,模型在训练集和测试集上的表现都很差;而过拟合则是指由于模型过于复杂,模型在训练集上表现良好,但在测试集上表现不佳。欠拟合和过拟合都会导致测试集上的错误率升高,从而降低模型的泛化能力。
良好的可视化技能也是优秀沟通者的标志。创建良好的可视化效果需要精心设计界面,同时满足技术上的可行性约束。在构建ML模型时,大部分时间通常花在数据处理、模型开发和微调上,留给向利益相关者传达建模结果的时间却少得不成比例。有效的沟通意味着,尽管ML模型对于该领域之外的人来说是一个黑盒解决方案,但仍然可以向其内部用户透明且充分地解释和让他们理解。
由ggplot2(tidyverse生态系统中专注于绘图的特定包)提供的各种功能创建的有意义且强大的可视化效果,是实现有效沟通的绝佳工具;其输出通常比基础R提供的默认绘图选项在视觉上更具吸引力。毕竟,随着你在职场上的晋升,从受众的角度思考,创建良好的可视化效果将成为一项重要技能。良好的展示技能将与(甚至比)你的技术技能(如模型开发)同样重要。
下面将展示如何使用ggplot2包构建简单而强大的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



