1.目标和目的清晰
明确数据处理的目的和目标,而后才有针对目的和目标的方法和路径。
2.设计正确的处理方案,方案需要考虑以下问题:
(1)正确性:
数据执行结果准确无误,需要做case检查和统计检查;
(2)稳定性和鲁棒性:
数据能够稳定的执行,处理过程需要考虑完整的异常处理机制和措施;
(3)可运营
数据处理过程能够监控到处理的过程和阶段性结果;
(4)可快速恢复或重构
出现异常情况,能够快速的响应和恢复数据;
(5)安全性
测试数据需要保证数据的知晓和使用范围,尽量做到数据够用即可;
(6)数据源
选择正确的数据源;
(7)可预期
数据处理的时间可以可靠预估;
(8)可测性:
测试、验证的方案;测试环境和生产环境的差异带来的影响;
(9)规范化:
数据处理结果标准化和规范化,需要前置设计数据标准化的方案;
(10)问题域最小化原则:
尽量将问题控制到一个小的范围内,避免出现一个问题导致全局失效的设计。
(11)部署
数据处理是否需要生产环境部署,部署方案和实施过程如何有效进行。
(12)大规模数据处理通常的方法:
a. 控制数据量范围,将采用小量代表数据快速验证和试错;
b. 在小量数据问题解决完毕后,扩大数据的规模,解决规模带来的问题;
c. 规模处理的过程需要进行阶段或者批次的划分,将问题影响的范围进行隔离,避免问题向全局扩散,也有助于快速局部重构。
(13)可能遇到的问题和潜在的风险
(14)是否有更好的解决方案,实施的条件是什么?