机器学习和我们经典算法不同,他面对的是高度不确定的问题的学习,答案是不确定的,概率性的具有统计意义的答案
面对这种答案,我们难免会思考一些问题,比如:这个答案真的可靠吗,我们多大程序相信这些答案,机器学习本质是什么?
微软在2001年的论文,对于不同的四个机器学习的算法,在算法的角度是有优劣的,但是如果喂给我们算法足够多的数据所有算法的准确率都在稳定的上升。当数据量大到一定程度,算法的准确率差别并不大,这样的研究结果在当时引起了轰动。
在人工智能领域和机器学习领域算法本身并不那么重要,只要我们喂给算法的数据足够多,数据质量足够好
大数据时代拉开了帷幕
数据缺失非常重要
数据驱动,高度依赖数据本身质量
比如收集更多数据,提高数据质量,提高数据代表性,研究更重要的特征
对于Alpha0,我们人没有给它任何数据,所有数据都是算法产生的
这打破了数据集算法这样一个概念,这就算法为王了,对于某些问题,即使没有数据算法也会为我们生成数据
但是围棋这个问题有她的特殊性在里面,所以这个结论不一定对所有的领域都适用
但是这样的突破至少告诉我们,算法本身亦然很重要,再好的数据都要有高效的算法来辅助才能最大程度发挥数据本身的作用
个人认为:短期内大部分机器学习内容都是数据驱动的,但是未来在算法领域也有很多的突破,使得可以更加好的利用这些数据。
很多算法
阿卡姆剃刀:简单的就是好的
简单的问题不要有过多假设,不要复杂化
到底在机器学习领域,什么叫"简单”
机器学习处理的是不确定的真实问题,对于很多问题来说并没有标准答案
没有免费午餐定理
可以严格数学推导出:任意两个算法,他们的期望性能相同!
具体到某些特定问题,有些算法更好
但是没有一种算法,绝对比另一种算法好的
脱离具体问题来谈,那么算法好是没有具体意义的
在面对一个具体问题,尝试使用多种算法进行对比试验,是必要的
面对不确定的世界,怎么看待使用机器学习进行预测的结果?
是巧合,还是起到了作用?
比如通过人脸,预测罪犯,一个人是罪犯的概率是60%我们该如何看待这种结果
机器伦理学