随着近来数据可用性,算力和新算法的快速发展,机器学习已逐渐成为实现人工智能(AI)的关键方法之一。
机器学习是计算机科学更广泛领域中人工智能的一个子集。它用计算机和算法从“数据”中学习并发现“模式和洞察”,因为在许多情况下,“模式和洞察”就隐藏在“数据”之中。随着时代发展,从业务流程中积累的数据对人类来说理解起来可能非常复杂。然而算法却能够比人更快、更准确地从数据中发掘出“模式和洞察”。
机器学习分为两类技术:监督学习和无监督学习。监督学习是指在已知的输入和输出数据上训练模型以使其可以预测未来的输出数据,无监督学习则是在输入数据中发现隐藏模式或内在结构。
机器学习的过程本质上是非常简单的:找到模式、应用模式, 这很大程度上要归功于Geoffrey Hinton在1986年的一项发明,今天我们称他为深度学习之父。
什么是深度学习?
深度学习是一种“深层”神经网络,它包括许多层神经元和海量数据。 这种先进的机器学习方式可以解决复杂问题,非线性问题 ,并且很多AI突破都与之相关,例如自然语言处理(NLP),个人数字助理和自动驾驶汽车。
什么是神经网络?
神经网络,又称人工神经网络,是一种模拟神经元在人脑中工作方式的机器学习。 该计算机程序使用多个节点(或“神经元”)并行操作,可以用于学习事物、识别模式以及模拟人类决策。
机器学习如何工作?
机器学习通常包含4个关键步骤:
- 数据预处理:范围缩放,缺失值插补
- 特征工程:特征提取,特征编码
- 模型选择
- 超参数优化
机器学习工程师或数据科学家在为特定任务构建机器学习流程时必须仔细设计每个步骤, 这些步骤通常是相互依赖的。 此外,设计和优化这些步骤需要深入了解各种算法,例如线性回归、逻辑回归、决策树、朴素贝叶斯、K近邻法、随机森林、梯度提升算法等。只有了解这些算法的优缺点以及数据编码才能够做好工作。
然而,这种传统的机器学习流程对人的依赖度非常高,并非所有企业都有资源投资于经验丰富的数据科学团队。 而且一些数据科学家也缺乏足够的专业知识来分析不同的数据集并构建机器学习模型。
为了使机器学习更易使用,减少所需的人工专业知识并提高模型性能,自动化机器