端到端机器学习项目实战:加州房价预测
1. 项目概述
在这个项目中,我们将模拟成为一家房地产公司新入职的数据科学家,从头到尾完成一个机器学习项目。主要步骤如下:
1. 了解整体情况
2. 获取数据
3. 探索和可视化数据以获取洞察
4. 为机器学习算法准备数据
5. 选择模型并进行训练
6. 微调模型
7. 展示解决方案
8. 部署、监控和维护系统
2. 使用真实数据
学习机器学习时,最好使用真实世界的数据进行实验。以下是一些可以获取数据的地方:
2.1 流行的开放数据存储库
- UC Irvine 机器学习存储库
- Kaggle 数据集
- Amazon 的 AWS 数据集
2.2 元门户(列出开放数据存储库)
- Data Portals
- OpenDataMonitor
- Quandl
2.3 其他列出许多流行开放数据存储库的页面
- Wikipedia 的机器学习数据集列表
- Quora.com
- The datasets subreddit
在本项目中,我们将使用来自 StatLib 存储库的加州房价数据集。该数据集基于 1990 年加州人口普查数据,虽然不是最新的,但具有很多学习价值。为了教学目的,我们添加了一个分类属性并删除了一些特征。
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



