在pandas里面常用用value_counts确认数据出现的频率。
Series 情况下import numpy as np
import pandas as pd
from pandas import DataFrame
from pandas import Series
ss = Series(['Tokyo', 'Nagoya', 'Nagoya', 'Osaka', 'Tokyo', 'Tokyo'])
ss.value_counts() #value_counts 直接用来计算series里面相同数据出现的频率
Tokyo 3Nagoya 2Osaka 1dtype: int64
DataFrame 情况下
import numpy as np
import pandas as pd
from pandas import DataFrame
from pandas
import Seriesdf=DataFrame({'a':['Tokyo','Osaka','Nagoya','Osaka','Tokyo','Tokyo'],'b':['Osaka','Osaka','Osaka','Tokyo','Tokyo','Tokyo']})
#DataFrame用来输入两列数据,同时value_counts将每列中相同的数据频率计算出来
print(df) a b0 Tokyo Osaka1 Osaka Osaka2 Nagoya Osaka3 Osaka Tokyo4 Tokyo Tokyo5 Tokyo
Tokyodf.apply(pd.value_counts)
a bNagoya 1 NaN
#在b列中meiynagoya,因此是用NaN 表示。
Osaka 2 3.0Tokyo 3 3.0参考:
http://ailaby.com/dataframe_value_counts/
---------------------
作者:大鱼霸吃小鱼儿
来源:优快云
原文:https://blog.youkuaiyun.com/datascientist_chen/article/details/79013669
版权声明:本文为博主原创文章,转载请附上博文链接!