通用过程
- 业务建模:把业务问题理解透,理解项目目标和需求,将目标转换成问题定义,设计出达到目标的一个初步计划。根据直觉和知识提出合理假说,如类比相关性等。难点:在于如何设计合理的目标函数,使得能够达到业务初始设计要求。
- 收集数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。要有数据,而且的确需要足够多的数据。难点:1.如何解决数据收集成本大的问题,或者说如何自动化收集数据。需要收集多少数据才够,学术界尚未有固定的理论指导,正在从成功案例中提炼经验公式。
- 准备数据:提升数据质量,将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换(稀疏,异构)和数据清理(缺失,矛盾)等。难点:对于优质数据的判断标准,待分析。
- 建模分析:选择和应用各种建模技术,并对其参数进行优化。一般的,为了模拟未知数据的表现,常常把数据集分为两个部分,一部分用于训练,一部分用于预测。难点:在于选用算法和参数如何选择,目前看到选择是根据类比的方法,寻找与待解决工程相似的已成功的工程,并使用相似的方法,但工程相似没有统一标准。对于参数的选择,目前常用方法还是尽可能多实验,选择测试结果最好的参数。
- 模型评估:对模型进行较为彻底的评价,并检