端到端机器学习项目实战
1. 项目概述
在机器学习领域,使用真实数据进行实践是非常重要的。我们将模拟成为一家房地产公司新入职的数据科学家,完成一个完整的项目。项目主要步骤如下:
1. 了解整体情况
2. 获取数据
3. 探索和可视化数据以获取洞察
4. 为机器学习算法准备数据
5. 选择模型并进行训练
6. 微调模型
7. 展示解决方案
8. 部署、监控和维护系统
2. 真实数据来源
学习机器学习时,使用真实世界的数据进行实验是最佳选择。以下是一些可以获取数据的地方:
- 流行的开放数据仓库 :
- UC Irvine Machine Learning Repository
- Kaggle datasets
- Amazon’s AWS datasets
- Meta portals(列出开放数据仓库)
- 数据门户 :
- OpenDataMonitor
- Quandl
- 其他列出许多流行开放数据仓库的页面 :
- Wikipedia’s list of Machine Learning datasets
- Quora.com
- The datasets subreddit
在本次项目中,我们将使用来自StatLib仓库的加利福尼亚住房价格数据集。该数据集基于1990年加利福尼亚州的人口普查数据,虽然不是最新数据,但具有很多学习价值。
超级会员免费看
订阅专栏 解锁全文
1210

被折叠的 条评论
为什么被折叠?



