机器学习项目的高效工作方式与基础设施规划
1. 工具选择
在项目开展前,与团队成员和客户就首选工具达成明确协议,因为项目客户通常会指定这些工具。以下是一些常用工具列表:
| 工具类型 | 具体工具 |
| ---- | ---- |
| 文档存储库 | SharePoint、Confluence、Microsoft Teams 等 |
| 工作票务系统 | Jira、GitLab、Azure DevOps Services |
| 源代码控制 | GitHub、Bitbucket、Subversion |
| 文档制作 | Microsoft Office 365、Google Docs、Open Office |
| 技术图表制作 | Visio、Lucidchart |
| 构建管理系统 | Gradle、Jenkins |
| 依赖管理系统 | Conda、Python 的 pip |
| 测试 | Python 的 pytest、JUnit |
使用错误的工具可能导致工作需要重新起草以获得客户认可,甚至可能违反合同,引发后续更大的问题。因此,提前明确工具选择至关重要,特别是对于机器学习项目,标准化工具能有效解决开发过程中的痛点。
2. 数据流水线
现代数据库反映了其所支持的复杂动态组织。数据科学和人工智能项目需要以临时方式统一众多资源,以创建涵盖问题领域的有用数据表示。关系数据库在这些项目中仍然非常有价值且常用,但来自传感器的非结构化数据或自然语言形式的数据也越来越需要被处理和利用。
ETL 工具难以满足人工智能项目对大量且频繁变
超级会员免费看
订阅专栏 解锁全文
3785

被折叠的 条评论
为什么被折叠?



