2021-06-06

最新推荐文章于 2025-03-17 15:48:33 发布

我一无所知

最新推荐文章于 2025-03-17 15:48:33 发布

阅读量130

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/MR_comentropy/article/details/117622043

python 专栏收录该内容

8 篇文章

订阅专栏

这篇博客详细介绍了NumPy库的数组操作，包括创建、属性获取、维度检查、重塑以及随机数生成。同时，深入讲解了Pandas的基础知识，如Series和DataFrame的创建、操作、索引、合并以及数据处理，还涉及到了时间序列和数据读取。通过实例展示了如何进行数据的筛选、聚合、重采样和透视表操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

numpy pandas 总结

import numpy as np
ar = np.array([[[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8]]])
print(ar,ar.ndim)#维度数组
print(ar.shape)
print(ar.data)

ar1 = np.array(range(10))
ar2 = np.arange(10)
ar3 = np.array([[1,2,3,4,5,6]])
ar4 = np.random.rand(10).reshape(2,5)
print(ar1,ar2,ar3,ar3.ndim,ar4)

print(np.arange(10000),np.arange(5,10))
print(np.linspace(10,20,num = 21))#step=(20-10)/(21-1)
print(np.array(range(10,20,2)))

import numpy as np
ar1 = np.arange(10)
ar2 = np.zeros((2,5))
ar3 = np.linspace(10,20,num=11)
ar4 = np.array(range(10,21,2))
#ar5 = np.
print(ar1,ar2,ar3,ar4)
print(ar4.reshape(3,2))
#print(np.resize(ar3,(2,5))


a = np.arange(5)
b = np.arange(5,10)
c = np.array([[1],[2],[3]])
d = np.array([['a'],['b'],['c']])
print(np.hstack((c,d)))
print(np.vstack((c,d)))
print(np.hstack((a,b)))
print(np.vstack((a,b)))
print("----------------")
# print(a.append(b))#没有append用法

ar1 =np.arange(16).reshape(4,4)
print(ar1)
print(np.hsplit(ar1,4))
print(np.vsplit(ar1,4))

#随机数
a =np.random.normal(size=(4,4))
b =np.random.rand(4,4)#随机分布
c =np.random.randn(4,4)#正太分布
d =np.random.randint(10,size=(2,5))
print(a,b)
print(c,d)

import numpy as np
import pandas as pd
a =np.random.rand(5)
print(a)
print(pd.Series(a,index=list('abcde')))#不加index时，index的值默认输出数字1，2，3，4，5，。。。
print(list(pd.Series(a).index))
print(pd.Series(a).values)

#两种创建方式 

import numpy as np
import pandas as pd
s = pd.Series(np.random.rand(10))
# print(s.head())#默认查看前五个数据，（）里可填具体查看数据
# print(s.tail())
# reindex
s1 = s.drop(1)#drop（）删除后生成新的数据，并不改变原s的数据。
s2 = s.drop([1,2,3])
print(s1,s2)


#添加，修改
s =pd.Series(np.arange(5))
print(s)
s[5] = 100 #更改数据
s[6] = 200 #添加数据
print(s)


a =pd.Series(np.arange(5))
b =pd.Series(np.arange(5,10))
print(a,b)
print(a.append(b)) #Series有append，而np.arange(),np.array([])等数组没有append，只有hstack,vstack,纵横连接。

data ={'name':['jack','tom','marry'],
      'age':[18,19,20],
      'gender':['m','m','w']}
frame = pd.DataFrame(data)
print(frame)
print(list(frame.columns))
print(list(frame.index))
print(frame.values)


#dataframe的创建方式
data1 = {'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]}
data2 = {'one':np.random.rand(3)
        ,'two':np.arange(3)}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2,index=['a','b','c'])
print(df1)
print(df2)


#data1 ={'one':pd.Series(np.random.rand(3))，'two':pd.Series(np.random.rand(3))}
#print(pd.DataFrame(data1))
ar = np.random.rand(9).reshape(3,3)
print(ar)
df1 = pd.DataFrame(ar,index=['a','b','c'],columns=['one','two','three'])
print(df1)

#索引行与列
import numpy as np
import pandas as pd
ar = np.random.rand(9).reshape(3,3)
df1 = pd.DataFrame(ar,index=['a','b','c'],columns=['one','two','three'])
print(df1)
print(df1.loc[['a','c']])  #行索引
print(df1[:2])             #切片索引，左闭右开。
print(df1[::2])            # 从头到尾，间隔为2.
print(df1['one'])          #列索引
print(df1[df1['one']>0.3]) #索引条件判断索引结果为布尔型，再次索引结果后仅保留为True的数据
print(df1.loc['a']>0.3)    #索引条件判断索引
print(df1['one'].loc[['a','c']])#多重索引，类似纵横选择。

#index，values 排序
ar = np.random.rand(9).reshape(3,3)
df1 = pd.DataFrame(ar,index=['a','b','c'],columns=['one','two','three'])
print(df1)
print(df1.sort_index('a',ascending= True))#默认升序

# pd 的时间模块
import numpy as np
import pandas as pd
from datetime import datetime
print(datetime.now())
#pd.Timestamp()
date1 = '20170101'
date2 = datetime(2016,10,1,15,0)
print(pd.Timestamp(date1))
print(pd.Timestamp(date2))
date3 = ['2017-12-10','2017-12-10','2019-12-10','aaaa']
#date4 = pd.to_datetime(date3,errors='coerce'
print(pd.to_datetime(date3,errors='ignore'))
print(pd.to_datetime(date3,errors='coerce'))#其中不是时间序列的值变为缺失值
#print(date4[0])

#DatetimeIndex
date3 = ['2017-12-10','2017-12-10','2019-12-10','aaaa']
date4 = pd.to_datetime(date3,errors='coerce')
print(date4)
print(pd.DatetimeIndex(date4)[0])
print(pd.to_datetime(date3,errors='coerce'))
# for i in range(len(date3)):
#     t = pd.DatetimeIndex(date3)[i]
# print(t)



#TimeSeries 时间序列 以DatetimeIndex 为index的 series序列
#TimeFrame 时间序列 以DatetimeIndex 为index的 DataFrame序列
d = ['2017-12-10','2017-12-10','2019-12-10']
c = pd.DatetimeIndex(d)
print(c)
a = pd.Series(np.random.rand(len(c)),index= c)
b =pd.DataFrame(np.random.rand(len(c)),index= c,columns=['no'])
print(a)
print(b)

#pd.date_range()
#pd.period_range() 
rng1 = pd.date_range('2017/1/1','2017/6/1',name= 'hello',freq='2M')
rng2 = pd.date_range(start='2017/1/1',periods=10)
rng3 = pd.period_range('2017/1/1','2017/6/1',name= 'hello',freq='2M')
print(rng1)
print(rng3)
print(rng2)
#print(rng3)

#重采样 resample
import numpy as np
import pandas as pd
rng = pd.date_range('20170101',periods=12)
ts = pd.Series(np.arange(12),index=rng)
print(ts)
ts_re =ts.resample('5D')
ts_re1 =ts.resample('5D').sum()
print(ts_re)
print(ts_re1)
print(ts.resample('5D').mean())      #平均值
print(ts.resample('5D').max())
print(ts.resample('5D').min())
print(ts.resample('5D').median())     #取中值
print(ts.resample('5D').ohlc())       #open 开盘，close收盘，

df = pd.DataFrame({'key1':[4,3,5,np.nan,6],
                  'key2':[1,2,np.nan,4,5],
                  'key3':[1,2,3,'j','k']},index=['a','b','c','d','e'])
print(df)
print(df.mean())#默认列求值
print(df.mean(axis=1))#行求值，skipnan默认跳过
print(df.mean(axis=1,skipna=False))#所有值和nan计算时，结果都是nan

print(df.count())
print(df.median())
print(df.std(),'\n',df.var())#标准差，方差。
print(df.skew(),'\n',df.kurt())#样本的偏度，峰度。

df['key1_s'] = df['key1'].cumsum()
df['key2_s'] =df['key2'].cumsum()
print(df)
#print(df['key1'].cumprod())

s = pd.Series(list('asdvadcfgg'))
sq = s.unique()                   # 唯一值
print(s)
print(sq)
print(pd.Series(sq))

#str
s = pd.Series(['A','b','C','bhhello','1,2,3',np.nan,'hj'])
df = pd.DataFrame({'key1':list('abcdef'),
                  'key2':['hee','fv','w','hijv','1,2,3',np.nan]})
print(s)
print(df)
print(s.str.count('b'))
print(df['key1'].str.upper())
print(df['key2'].str.lower())
#_strip
#_replace
#split
print(s.str.split(',',expand=True,n=6))

s = pd.Series(['A,bc','bc','Cc','bhhello','1,2,3',np.nan,'hj'])
df = pd.DataFrame({'key1':list('abcdef'),
                  'key2':['hee','fv','w','hijv','1,2,3',np.nan]})
print(s.str.split(',',expand=True,n=3))
print(df['key2'].str.split(',',expand=True,n=3))

#merge 行列合并
on=
how = 'inner'   交集
how = 'outer'   并集
how = 'left'   左连接
how = 'right'  右连接
left_on='',right_on=''


#concat
s1 = pd.Series([1,2,3])
s2 = pd.Series([3,4,5])
s3 = pd.Series([1,2,3],index=['a','c','h'])
s4 = pd.Series([2,3,4],index=['b','e','d'])
#print(pd.concat([s1,s2]).sort_index())
#print(pd.concat([s3,s4]))
print(s3)
print(s4)
print(pd.concat([s3,s4],axis=1))#默认axis=0行堆叠，=1是列堆叠。


#df1.combine_first(df2)  修补nan值
#df1.update(df2)       直接覆盖
 

#透视表， pivot_table(df,values='',index='',aggfunc='')
import numpy as np
import pandas as pd
date = ['2017-5-1','2017-5-2','2017-5-3']*3
rng = pd.to_datetime(date)
print(rng)
df = pd.DataFrame({'date':rng,
                  'key':'abcdabcda',
                  'values':np.random.rand(9)*10})
print(df)
print('____________')
print(pd.pivot_table(df,values='values',index='date',aggfunc='var'))
print(pd.pivot_table(df,values='values',index='date',aggfunc='var',columns='key'))

#交叉表 crosstab 
df = pd.DataFrame({'A':[1,2,2,2,2],
                  'B':[3,3,4,4,4],
                  'C':[1,1,np.nan,1,1]})
print(df)
print('____________')
print(pd.crosstab(df['A'],df['B']))
print(pd.crosstab(df['A'],df['B'],normalize=True))
print('____________')
print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc='sum'))#当a=1,b=3时，求c项的和；当a=,c=,。。。。

#数据读取 pd.read_table,可读取txt，csv
pd.read_table('date.txt',delimit=',',header=0,index=1)
#read_csv 客户去csv文件，常用
data2 = pd.read_csv('data2.csv',engine='python',encording='utf8')
#read_excel,读取excel数据
data3 = pd.read_excel('data2.xlsx',header=0,sheetname=[0,1])