谈到机器学习,很多人自然会联想到人机对弈、自动驾驶、图像识别、疾病诊断等领域的成功案例。人工神经网络的超人般的能力令人咂舌。但是很少有人想到人工神经网络预测结果的高风险性。
从人工神经网的基本原理上来看,无论识别图像、听懂语音,在这些高维大数据情境中,神经网络技术总能输出一些很不错的结果,而其它机器学习算法/模型确实做不到!
但还是没人解释的清,神经网它到底是怎样做到的。人工神经网的训练过程,更像是一种试算式的参数调优,层数和结点数越多,试算的“黑中操作性”越强。但是不管怎么说,最终的测试结果不错就行。这就是神经网最大的特点,也是最大的缺点——“黑箱性”。而这个特点导致结果不可解释,因此在很多领域,如金融领域的客户风险评级,是万万不敢使用神经网模型的,因为你无法向客户说明他为何被抛弃,这会导致大量的投诉,甚至诉讼。
虽然我们通过加大样本数量可以提高神经网络的预测质量,但其本身只求逼近、不讲道理的拟合过程,仍然使其对输入极为敏感,从而出现让人瞠目结舌的错误输出,犯一些其它算法不太可能出现的超级低级错误(泛化能力不好)。
因此在实际应用领域,根据业务场景和样本数据情况选择最合适的模型更为重要,而不要一味的追求所谓的新技术、新算法,像逻辑回归、支持向量机、朴素贝叶斯、决策树以及基于这些基础算法的集成学习算法都是很不算的选择。这些算法结果的可解释性、训练过程的经济性、抵抗干扰的鲁棒性也确保了人工智能技术在应用领域的快速推广。