机器学习的工作原理是通过使用算法从数据中学习知识,然后对现实世界中的事件做出预测或决策。它使用大量的数据来“训练”模型,通过不同的算法从数据中学习如何完成任务。与传统的硬编码软件程序不同,机器学习模型可以通过新的数据不断自我修正和改进。
机器学习的优势在于其能够从越来越多的输入数据中学习,并给出数据驱动的概率预测。这使得机器学习在处理复杂数据和做出准确预测方面具有显著优势。此外,机器学习在许多领域都有广泛应用,包括金融服务、物流、供应链、边缘计算等。
机器学习一般分为三种类型:监督学习、无监督学习和强化学习。
下面我们用机器学习和统计学中一个经典的数据集开始机器学习之旅:鸢尾花(Iris)数据集,它包含在 scikit-learn 的 datasets 模块中。
我们将基于这个数据集完成一个简单的机器学习应用,构建第一个模型。假设有一名植物学爱好者对发现的鸢尾花的品种很感兴趣。他收集了每朵鸢尾花的一些测量数据:花瓣的长度和宽度,花萼的长度和宽度,测量结果的单位都是厘米。另外还有一些已知品种的的测量数据,这些已知的测量数据已经被植物学专家鉴定为属于鸢尾花 setosa、 versicolor 或 virginica 三个品种之一。
<