数据驱动安全分析的技能与实践
1. 可视化与沟通
可视化本质上是一种沟通方式。可视化类型可根据受众分为两类:
- 为自己可视化 :例如 R 的 lm() 函数自动生成的用于诊断线性回归模型拟合情况的四个常见图。这些图对分析师理解数据模型的关系和属性很有帮助,但通常不美观且不易理解,主要用于分析过程,而非展示结果。
- 为他人可视化 :这类可视化旨在向非分析师传达分析师从数据中发现的信息,通常要求美观且信息清晰。如从与上述相同数据衍生而来,但面向不同受众的图,更加简洁,能传达明确信息。
在数据分析中,结合多种技能能让分析更顺畅,提升从数据中获取信息的能力。随着数据量增加和分析需求融入文化,可将工作分配给多人。组建安全数据科学团队时,不必要求一人具备所有技能,应与候选人沟通,确保他们至少具备部分相关技能。
2. 以问题为核心
数据分析并非为分析而分析,需在特定背景下进行,理解背景是成功分析的关键。每个好的数据分析项目都应设定目标并提出研究问题。若缺乏明确问题,可能导致分析无意义。
例如,展示某组织一个月内拦截的垃圾邮件数量和类别,虽能通过邮件过滤系统日志收集和展示信息,但这类数据回答的问题对组织意义不大。而一个好的关于垃圾邮件的研究问题可以是“员工在未被垃圾邮件过滤器拦截的垃圾邮件上花费了多少时间”。明确此问题后,就知道不能仅依赖垃圾邮件过滤器日志,而需收集员工时间相关数据,如查看邮件客户端中用户标记垃圾邮件的日志或进行简短调查。
3. 提出好的研究问题
提出好的研究问题相
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



