数据处理与机器学习模型应用
1. 数据清洗
在现实世界中,大多数数据都存在一些缺陷,因此需要先进行清洗。以下是一个简单的示例,展示如何使用 Pandas 清洗数据。
1.1 读取数据
首先,我们有一个名为 small.csv 的文件,内容如下:
22,6.1
41,5.7
18,5.3*
29,NA
可以使用 Pandas 的 read_csv 函数将其加载到数据框中:
import pandas as pd
df = pd.read_csv("small.csv")
print(df)
输出结果:
22 6.1
0 41 5.7
1 18 5.3*
2 29 NaN
可以看到,Pandas 将第一行作为了表头,这不是我们想要的。我们可以通过设置 header=None 来解决这个问题:
df = pd.read_csv("small.csv", header=None)
print(df)
输出结果:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



