python预测第一步-了解数据集

Phaedraaa

已于 2023-07-20 12:29:19 修改

阅读量1.1k

点赞数 3

分类专栏： PYTHON预测文章标签： python 机器学习开发语言

于 2023-03-09 12:03:30 首次发布

本文链接：https://blog.youkuaiyun.com/m0_73940364/article/details/129419701

版权

本文展示了如何使用Pandas库在Python中分析数据集，包括使用`info()`函数获取数据属性，`columns`查看列名，以及`value_counts()`统计属性值分布，用于初步的数据探索和预处理阶段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、查看数据集的特征信息：info( )

#导入所需库
import pandas as pd
import numpy as np

#导入数据
data = pd.read_csv('Salary Data.csv')
print(data.info())

先导入数据，用info()函数查看数据属性的具体信息：数据集行数、属性列编号、属性名、非空列数、数据类型。导入工资预测数据集（https://www.datacastle.cn/dataset_description.html?type=dataset&id=2519），运行结果如下：

RangeIndex: 375 entries, 0 to 374
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Age                  373 non-null    float64
 1   Gender               373 non-null    object