数据驱动安全分析:技能、问题与工具
1. 可视化与沟通
可视化实际上是关于沟通的技能。可视化类型可根据受众分为两类:
- 为自己可视化 :例如 R 的 lm() 函数自动生成的用于诊断线性回归模型拟合情况的四个常见图。这些图对于不了解的人来说可能很丑陋和令人困惑,但它们能为分析师在处理数据或数据模型时提供信息,帮助理解模型的某些关系和属性,用于直观检查数据中的异常、关系强度等。这类可视化作为分析的一部分,很少花精力使其美观或适合展示。
- 为他人可视化 :用于分析师向他人传达在数据中发现的情况,通常要美观且传达清晰的信息,是面向非分析师的沟通工具。例如与上述诊断图基于相同数据但面向不同受众的图,它更简洁,能从一张图中为每个大陆州提取信息。
2. 技能组合
为使分析更顺畅并从数据中学到更多,需要结合本章涵盖的技能。这些技能不一定要集中在一个人身上,随着数据增长和分析需求融入文化,将工作分配给多人可减轻负担。在组建安全数据科学团队时,很难找到具备所有技能的人,应与候选人深入讨论,确保他们至少具备部分相关技能。
3. 以问题为中心
3.1 问题的重要性
数据分析不是为了分析而分析,而是在更大的背景下进行,理解这个背景是成功分析的关键。每个好的数据分析项目都应从设定目标和提出研究问题开始。如果分析缺乏精心准备的研究问题,可能会让人觉得结果没有意义。没有明确问题指导的分析,可能会浪费时间和精力寻找方便的答案,甚至回答一个没人关心的问题。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



