一、生成数据表
各位读者朋友们,由于写技术文章实属不易,如果觉得这篇文章对你有用的话,麻烦关注,点赞哈,十分感谢。
1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:
import numpy as np
import pandas as pd
2、导入CSV或者xlsx文件:
data_csv = pd.read_csv('filename.csv', header=1)
data_xlsx = pd.read_excel('filename.xlsx')
或者
from collections import namedtuple
import codecs
Record = namedtuple('Record', 'reply pv')
records = []
with codecs.open('reply.pv.07', 'r', 'utf-8') as file:
for line in file:
line_split = line.strip().split('\t')
records.append(Record(line_split[0].strip(), line_split[1].strip()))
data_from_records = pd.DataFrame.from_records(records, columns=['reply', 'pv'])
3、用pandas创建数据表:
data_table = pd.DataFrame({
"id": [1001, 1002, 1003, 1004, 1005, 1006],
"date": pd.date_range('2013-01-02', periods=6),
"city": ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Shanghai', 'Beijing'],
"age": [23, 44, 54, 32, 34, 32],
"category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],
"price": [1200, np.nan, 2133, 5433, np.nan, 4432]
}, columns=['id', 'date', 'city', 'age', 'category', 'price'])
# 输出数据表
print(data_table)
二、数据表信息查看
1、维度查看:
df.shape
2、数据表基本信息(维度、列名称、数据格式、所占空间等):
df.info()
3、每一列数据的格式:
df.dtypes
4、某一列格式:
df['B'].dtype
5、空值:
df.isnull()
6、查看某一列空值:
df['B'].isnull()
7、查看某一列的唯一值:
df['B'].unique()
8、查看数据表的值:
df.values
9、查看列名称:
df.columns
10、查看前5行数据、后5行数据:
df.head()
df.tail()