机器学习平台:工具、技术与实践
1. 机器学习平台概述
在人工智能问题的解决中,实际的算法选择和模型开发虽是关键活动,但并非最耗时的部分。如今,强大的库和平台能让我们用几行代码就完成模型的构建和训练,一些现代数据科学平台甚至无需编写代码就能选择合适的模型并进行训练。
数据科学家大部分时间花费在数据收集、清洗、准备、模型和超参数的训练分布以及模型部署等活动上,这些活动占整体解决方案开发时间的 50% - 80%。目前,亚马逊、谷歌和微软等公司正在大力开发机器学习或数据科学平台,以实现模型开发生命周期中各项活动的自动化,例如 Amazon SageMaker、Google AutoML 和 Microsoft Azure Studio 等。这些平台通常与各自的云服务绑定,若不想将数据存储在公共云,也可构建本地数据科学平台。
一个好的数据科学或机器学习平台应具备以下能力:
- 帮助数据科学家解决数据获取、清洗、分析等方面的问题,实现各阶段的自动化,减少手动操作。
- 使模型在生产环境中能被软件应用轻松调用,无需特殊集成。
2. 数据获取
获取合适的数据来训练模型是确保模型在实际应用中有效的关键。在机器学习的在线教程或书籍中,数据常以 CSV 文件形式呈现,但生成这样的文件需要大量工作。一个好的平台应能自动连接数据源并提取数据,无需手动每次构建 CSV 文件。
2.1 传统数据源
传统数据源使用关系型数据库存储大量数据,可使用结构化查询语言(SQL)从这些数据库中提取数据。关系型数据库以表格形式存储数据,通过主键或外键关联不同表格。理解数据表格之间的关系有助于构建正确的 SQL 查
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



