太久没写python代码了,学机器学习重新拾起python,笔记比较简陋。
目录
一、通常的步骤
- 导入数据。数据通常以CSV格式存储。
- 清洗数据。比如删除重复数据或者不完整的数据。
- 把数据拆分成训练集、测试集等。
- 创建一个模型。
- 训练模型。
- 做出预测。
- 评估预测效果,对模型进行提升。
二、库和工具
- Numpy 对处理多维数组很方便
- Pandas 为数据分析提供了data frame
- MatPlotLib
- Scikit-Learn
三、环境
下载配置anaconda环境,这个在csdn上搜其他高赞帖子教程就行。
四、导入数据集
- 注册Kaggle账号,我用Google账号注册登录的。搜索Video Game Sales,找到Datasets,选择第一个,投票最多的那个。 下载是一个压缩包,解压,vgsales.csv文件放到代码工程文件夹下。
- 我是用的vscode新建.ipynb文件运行,不是直接用的jupyter(因为我之前用过,总是出问题)。vscode需要安装jupyter插件,运行时,遇到了问题 Running cells with '(Python 3.8.20)' requires the ipykernel package.
- 已解决,运行该命令即可:pip install ipykernel --upgrade 参考在vscode中运行jupyter时报错_running cells with 'python 3.8.13 ('pythonproject6-优快云博客
- .ipynb文件下运行,数据集加载出来。
-
import pandas as pd df = pd.read_csv('vgsales.csv') #读取csv文件中的数据。 df #df.shape 返回数据集的规模 (x,y) x是记录数,y是column数。 #df.describe() 返回generates descriptive statistics 比如count,mean,min,max, #df.values() 以二维数组的形式返回表中的数据。