1.2数据分析之---pandas

深入理解Python数据分析库Pandas
本文详细探讨了Pandas在数据分析中的应用,包括数据清洗、数据整合、数据切片和聚合等操作,旨在帮助读者掌握使用Python进行高效数据处理的技巧。
data={
    'num':[10,11,12,13,14,15,16],
    'name':['lili','wangyi','xiaoxiao','xiaoye','yangyang','zhouyang','wangli'],
    'age':[25,20,28,23,25,30,32],
    'address':['北京','上海','北京','上海','北京','上海','北京']
    
}
data
{'num': [10, 11, 12, 13, 14, 15, 16],
 'name': ['lili',
  'wangyi',
  'xiaoxiao',
  'xiaoye',
  'yangyang',
  'zhouyang',
  'wangli'],
 'age': [25, 20, 28, 23, 25, 30, 32],
 'address': ['北京', '上海', '北京', '上海', '北京', '上海', '北京']}
import  pandas  as  pd
df=pd.DataFrame(data)
df
numnameageaddress
010lili25北京
111wangyi20上海
212xiaoxiao28北京
313xiaoye23上海
414yangyang25北京
515zhouyang30上海
616wangli32北京
df.sum()
num                                                    91
name       liliwangyixiaoxiaoxiaoyeyangyangzhouyangwangli
age                                                   183
address                                    北京上海北京上海北京上海北京
dtype: object
df.count()
num        7
name       7
age        7
address    7
dtype: int64
df.describe()
numage
count7.0000007.000000
mean13.00000026.142857
std2.1602474.140393
min10.00000020.000000
25%11.50000024.000000
50%13.00000025.000000
75%14.50000029.000000
max16.00000032.000000
mask=df.isin(['xiaoye',32,25])    # 判断Series的元素在不在b和c里面#****************

df[mask]             #包含的元素进行填充
numnameageaddress
0NaNNaN25.0NaN
1NaNNaNNaNNaN
2NaNNaNNaNNaN
3NaNxiaoyeNaNNaN
4NaNNaN25.0NaN
5NaNNaNNaNNaN
6NaNNaN32.0NaN
#文本格式数据的读写
df=pd.read_excel('./gzPrice.xlsx')
#df.head(5)
df=pd.read_csv('./fangPrice.csv',engine='python',nrows=5)

df=pd.read_csv('./fangPrice.csv',engine='python',chunksize=10)
for  i  in   df:
    
    #print(i)
  File "<ipython-input-51-13fade701bbe>", line 4
    #print(i)
             ^
SyntaxError: unexpected EOF while parsing
data1={
    'num':[10,11,12,13,14,15,16],
    'name':['lili','wangyi','xiaoxiao','xiaoye','yangyang','zhouyang','wangli'],
    'age':[25,20,28,23,25,30,32],
    'address':['北京','上海','北京','上海','北京','上海','北京']
    
}
data1
{'num': [10, 11, 12, 13, 14, 15, 16],
 'name': ['lili',
  'wangyi',
  'xiaoxiao',
  'xiaoye',
  'yangyang',
  'zhouyang',
  'wangli'],
 'age': [25, 20, 28, 23, 25, 30, 32],
 'address': ['北京', '上海', '北京', '上海', '北京', '上海', '北京']}
df1=pd.DataFrame(data1)
df1
numnameageaddress
010lili25北京
111wangyi20上海
212xiaoxiao28北京
313xiaoye23上海
414yangyang25北京
515zhouyang30上海
616wangli32北京
df1.to_csv('./newData.csv',index=False)     #文件中写入数据,并且保存index=False, header=False
aa=[
    {"a": 1, "b": 2, "c": 3},
 
    {"a": 4, "b": 5, "c": 6},

    {"a": 7, "b": 8, "c": 9}
   ]
aa
[{'a': 1, 'b': 2, 'c': 3}, {'a': 4, 'b': 5, 'c': 6}, {'a': 7, 'b': 8, 'c': 9}]
#数据处理:数据读取(加载)、清理、转换、处理和重新排列
#使用numpy.nan标识缺失值   NaN

from numpy import nan as NA  # 导入惯例

s = pd.Series([1, NA, 3.5, NA, 7])
s
0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64
s.dropna()  #把缺失值删除
0    1.0
2    3.5
4    7.0
dtype: float64
s[s.notnull()]
0    1.0
2    3.5
4    7.0
dtype: float64
s[s.isnull()]
1   NaN
3   NaN
dtype: float64
df1
numnameageaddress
010lili25北京
111wangyi20上海
212xiaoxiao28北京
313xiaoye23上海
414yangyang25北京
515zhouyang30上海
616wangli32北京

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值