Pandas基础(三)
一、本课目标
- 掌握DataFrame的特点和使用
- 掌握Pandas分析CSV文件
- 掌握Pandas分析JSON文件
- 掌握Pandas数据清洗
- 掌握Pandas常用函数
十四、CSV 文件-1
- CSV(Comma-Separated Values,逗号分隔值,也称为字符分隔值,因为分隔字符也可以不是逗号)
- 以纯文本形式存储表格数据
- CSV 是一种通用的、相对简单的文件格式,被商业和科学广泛应用
- 打开CSV文件
- df = pd.read_csv(‘nba.csv’)
- print(df.to_string())
- 注意to_string()的作用
df = pd.read_csv("pandas数据文件/nba.csv")
print(df)
print(df.to_string())
十五、CSV 文件-2
- to_csv() 方法将 DataFrame 存储为 csv 文件
- name = [“Google”, “Baidu”, “Taobao”, “Wiki”]
- site = [“www.google.com”, “www.baidu.com”, “www.taobao.com”, “www.wiki.org”]
- age = [90, 40, 80, 98]
- dict = {‘name’: name, ‘site’: st, ‘age’: age}
- df = pd.DataFrame(dict)
- #保存 dataframe
- df.to_csv(‘site.csv’,head=True,index=True,index_label=’ind’)
names = ['Tom', 'jack', 'rose']
chinese = [99, 90, 89]
math = [100, 80, 90]
df = pd.DataFrame({
'name': names, 'chinese':'chinese', 'math':math})
print(df)
df.to_csv("pandas数据文件/data.csv", index=False)
df = pd.read_csv("pandas数据文件/data.csv")
print(df)
十六、JSON
- JSON(JavaScript Object Notation),是存储和交换文本信息的语法
- JSON 比 XML 更小、更快,更易解析
- 打开JSON文件
- df = pd.read_json(‘sites.json’)
- print(df.to_string())
- 注意to_string()方法的作用
pd.read_json("pandas数据文件/data.json")
names = ['Tom', 'jack', 'rose']
chinese = [99, 90, 89]
math = [100, 80, 90]
df = pd.DataFrame({
'name': names, 'chinese':'chinese', 'math':math})
df.to_json("pandas数据文件/data1.json")
十七、数据清洗-1
- 数据清洗是对一些没有用的数据进行处理的过程
- 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理
df = pd.read_csv("pandas数据文件/property-data.csv", na_values=['na', '--', 'HURLEY'])
print(df.to_string())
print('*'*60)
print(df.isna().to_string())
print(df.fillna(1234556).to_string())
print(df["NUM_BEDROOMS"].fillna("Y").to_string)
十八、数据清洗-2
- 空值数据( property-data.csv )
- 包含了五种空数据:(空白)、n/a、NA、—、na