1.2数据分析之---pandas

深入理解Python数据分析库Pandas

最新推荐文章于 2025-03-23 12:47:48 发布

原创最新推荐文章于 2025-03-23 12:47:48 发布 · 235 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #python

python 同时被 3 个专栏收录

7 篇文章

订阅专栏

pandas

2 篇文章

订阅专栏

数据分析

2 篇文章

订阅专栏

本文详细探讨了Pandas在数据分析中的应用，包括数据清洗、数据整合、数据切片和聚合等操作，旨在帮助读者掌握使用Python进行高效数据处理的技巧。

data={
    'num':[10,11,12,13,14,15,16],
    'name':['lili','wangyi','xiaoxiao','xiaoye','yangyang','zhouyang','wangli'],
    'age':[25,20,28,23,25,30,32],
    'address':['北京','上海','北京','上海','北京','上海','北京']
    
}
data

{'num': [10, 11, 12, 13, 14, 15, 16],
 'name': ['lili',
  'wangyi',
  'xiaoxiao',
  'xiaoye',
  'yangyang',
  'zhouyang',
  'wangli'],
 'age': [25, 20, 28, 23, 25, 30, 32],
 'address': ['北京', '上海', '北京', '上海', '北京', '上海', '北京']}

import  pandas  as  pd

df=pd.DataFrame(data)
df

	num	name	age	address
0	10	lili	25	北京
1	11	wangyi	20	上海
2	12	xiaoxiao	28	北京
3	13	xiaoye	23	上海
4	14	yangyang	25	北京
5	15	zhouyang	30	上海
6	16	wangli	32	北京

df.sum()

num                                                    91
name       liliwangyixiaoxiaoxiaoyeyangyangzhouyangwangli
age                                                   183
address                                    北京上海北京上海北京上海北京
dtype: object

df.count()

num        7
name       7
age        7
address    7
dtype: int64

df.describe()

	num	age
count	7.000000	7.000000
mean	13.000000	26.142857
std	2.160247	4.140393
min	10.000000	20.000000
25%	11.500000	24.000000
50%	13.000000	25.000000
75%	14.500000	29.000000
max	16.000000	32.000000

mask=df.isin(['xiaoye',32,25])    # 判断Series的元素在不在b和c里面#****************


df[mask]             #包含的元素进行填充

	num	name	age	address
0	NaN	NaN	25.0	NaN
1	NaN	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN
3	NaN	xiaoye	NaN	NaN
4	NaN	NaN	25.0	NaN
5	NaN	NaN	NaN	NaN
6	NaN	NaN	32.0	NaN

#文本格式数据的读写
df=pd.read_excel('./gzPrice.xlsx')
#df.head(5)

df=pd.read_csv('./fangPrice.csv',engine='python',nrows=5)

df=pd.read_csv('./fangPrice.csv',engine='python',chunksize=10)
for  i  in   df:
    
    #print(i)

  File "<ipython-input-51-13fade701bbe>", line 4
    #print(i)
             ^
SyntaxError: unexpected EOF while parsing

data1={
    'num':[10,11,12,13,14,15,16],
    'name':['lili','wangyi','xiaoxiao','xiaoye','yangyang','zhouyang','wangli'],
    'age':[25,20,28,23,25,30,32],
    'address':['北京','上海','北京','上海','北京','上海','北京']
    
}
data1

{'num': [10, 11, 12, 13, 14, 15, 16],
 'name': ['lili',
  'wangyi',
  'xiaoxiao',
  'xiaoye',
  'yangyang',
  'zhouyang',
  'wangli'],
 'age': [25, 20, 28, 23, 25, 30, 32],
 'address': ['北京', '上海', '北京', '上海', '北京', '上海', '北京']}

df1=pd.DataFrame(data1)
df1

	num	name	age	address
0	10	lili	25	北京
1	11	wangyi	20	上海
2	12	xiaoxiao	28	北京
3	13	xiaoye	23	上海
4	14	yangyang	25	北京
5	15	zhouyang	30	上海
6	16	wangli	32	北京

df1.to_csv('./newData.csv',index=False)     #文件中写入数据，并且保存index=False, header=False

aa=[
    {"a": 1, "b": 2, "c": 3},
 
    {"a": 4, "b": 5, "c": 6},

    {"a": 7, "b": 8, "c": 9}
   ]
aa

[{'a': 1, 'b': 2, 'c': 3}, {'a': 4, 'b': 5, 'c': 6}, {'a': 7, 'b': 8, 'c': 9}]

#数据处理：数据读取（加载）、清理、转换、处理和重新排列
#使用numpy.nan标识缺失值   NaN

from numpy import nan as NA  # 导入惯例

s = pd.Series([1, NA, 3.5, NA, 7])

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

s.dropna()  #把缺失值删除

0    1.0
2    3.5
4    7.0
dtype: float64

s[s.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

s[s.isnull()]

1   NaN
3   NaN
dtype: float64

df1

	num	name	age	address
0	10	lili	25	北京
1	11	wangyi	20	上海
2	12	xiaoxiao	28	北京
3	13	xiaoye	23	上海
4	14	yangyang	25	北京
5	15	zhouyang	30	上海
6	16	wangli	32	北京