Jupyter Notebook Untitled Last Checkpoint: an hour ago (autosaved) Python 3
Python 3
File
Edit
View
Insert
Cell
Kernel
Widgets
Help
import numpy as np
a = np.linspace(1,10,50)
a
array([ 1. , 1.18367347, 1.36734694, 1.55102041,
1.73469388, 1.91836735, 2.10204082, 2.28571429,
2.46938776, 2.65306122, 2.83673469, 3.02040816,
3.20408163, 3.3877551 , 3.57142857, 3.75510204,
3.93877551, 4.12244898, 4.30612245, 4.48979592,
4.67346939, 4.85714286, 5.04081633, 5.2244898 ,
5.40816327, 5.59183673, 5.7755102 , 5.95918367,
6.14285714, 6.32653061, 6.51020408, 6.69387755,
6.87755102, 7.06122449, 7.24489796, 7.42857143,
7.6122449 , 7.79591837, 7.97959184, 8.16326531,
8.34693878, 8.53061224, 8.71428571, 8.89795918,
9.08163265, 9.26530612, 9.44897959, 9.63265306,
9.81632653, 10. ])
np.random.randn(10)
array([ 0.20869267, 0.62839026, 0.64772152, -0.1084759 , 2.01173248,
0.50374374, -0.83213495, 0.73551128, -0.55734385, -1.47883472])
np.random.randint(1,20,10)
array([13, 2, 16, 4, 18, 10, 1, 8, 7, 7])
print(type(a))
print(a.dtype)
a.shape
<class ‘numpy.ndarray’>
float64
(50,)
a.size
50
a.ndim #纬度
1
b = np.array([1,2,3,4])
b[3:]
array([4])
b[::2]
array([1, 3])
#电影累计票房
ob = np.array([21000,21800,22400,23450,25000])
ob[1:]-ob[:4]
array([ 800, 600, 1050, 1550])
ob[1:]-ob[:-1]
array([ 800, 600, 1050, 1550])
c = np.array([[0,1,2,3],[10,11,12,13]])
c
array([[ 0, 1, 2, 3],
[10, 11, 12, 13]])
c.ndim
2
c.shape #先行后列
(2, 4)
c.size
8
c[1,1]
11
c[:,1]
array([ 1, 11])
#多维的切片
d = np.array([[0,1,2,3,4,5],[10,11,12,13,14,15],[20,21,22,23,24,25],[30,31,32,33,34,45],[40,41,42,43,44,45],[50,51,52,53,54,55]])
d
array([[ 0, 1, 2, 3, 4, 5],
[10, 11, 12, 13, 14, 15],
[20, 21, 22, 23, 24, 25],
[30, 31, 32, 33, 34, 45],
[40, 41, 42, 43, 44, 45],
[50, 51, 52, 53, 54, 55]])
d[-2:,-2:]
array([[44, 45],
[54, 55]])
d[:,2] #[lower:upper:step]
array([ 2, 12, 22, 32, 42, 52])
d[3::2,::2] #取得是三五行的奇数列
array([[30, 32, 34],
[50, 52, 54]])
e = np.array([0,1,2,3,4])
e = np.array([0,1,2,3,4])
r = e[2:4]
r[0] = 10
print(e)#这个就叫做引用机制
[ 0 1 10 3 4]
e = np.array([0,1,2,3,4])
r = e[2:4].copy()
r[0] = 10
print(e)#使用copy()可以避免这个引用机制的问题
[0 1 2 3 4]
f = np.arange(0,100,10)
f
array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])
index = [1,2,-3]
y = f[index]
print(y)#通过列表花式索引
[10 20 70]
mask = np.array([0,2,2,0,0,1,0,0,1,0],dtype = bool)
mask
array([False, True, True, False, False, True, False, False, True, False], dtype=bool)
f[mask]#这个的长度必须是相等的,通股票BOOL数组来进项花式索引
array([10, 20, 50, 80])
d = np.array([[0,1,2,3,4,5],[10,11,12,13,14,15],[20,21,22,23,24,25],[30,31,32,33,34,45],[40,41,42,43,44,45],[50,51,52,53,54,55]])
d
array([[ 0, 1, 2, 3, 4, 5],
[10, 11, 12, 13, 14, 15],
[20, 21, 22, 23, 24, 25],
[30, 31, 32, 33, 34, 45],
[40, 41, 42, 43, 44, 45],
[50, 51, 52, 53, 54, 55]])
#二位的花式索引,需要给定行列的值
#一条次对角线的五个值
d[(0,1,2,3,4),(1,2,3,4,5)]
array([ 1, 12, 23, 34, 45])
#最后三行的一三五列
d[-3:,::2]
array([[30, 32, 34],
[40, 42, 44],
[50, 52, 54]])
mask = np.array([1,0,1,0,0,1],dtype=bool)
d[mask,2]#取出第三列的1 3 6 行
array([ 2, 22, 52])
con = np.array([0,1,1,0,1,0],dtype = bool)
d[con]
array([[10, 11, 12, 13, 14, 15],
[20, 21, 22, 23, 24, 25],
[40, 41, 42, 43, 44, 45]])
q = np.array([0,12,5,20])
q>10
array([False, True, False, True], dtype=bool)
np.where(q>10)
(array([1, 3], dtype=int64),)
q[q>10]
array([12, 20])
q[np.where(q>10)]
array([12, 20])
s = np.array([1,3,4],dtype = float)
s
array([ 1., 3., 4.])
s = np.array([1,3,4])
print(s)
[1 3 4]
np.asarray(s,dtype = float)#通过 asarray转换数据类型
array([ 1., 3., 4.])
s.astype(float)#通过 astype转换数据类型
array([ 1., 3., 4.])
np.sort(q)#顺序的排序
array([ 0, 5, 12, 20])
z = np.array([5,6,4,1,7,9,3,2,8])
z
array([5, 6, 4, 1, 7, 9, 3, 2, 8])
order = np.argsort(z)#返回从小到大的排序在序列中的索引位置
order
array([3, 7, 6, 2, 0, 1, 4, 8, 5], dtype=int64)
z[order[5]]#这个还是有点神奇的,得反应反应
#看了十几分钟,原来是根据索引从小到达排列的,我晕,我以为是每个对应的顺序排列的了~
6
np.sum(z)#求和
45
z.sum()
45
z.min()
1
z.mean()
5.0
z.std()
2.5819888974716112
x = np.arange(6)
x
array([0, 1, 2, 3, 4, 5])
v = x.reshape(2,3)
v.T.T.T
array([[0, 3],
[1, 4],
[2, 5]])
#数组的连接
np.concatenate((x,x),axis=0)
array([0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5])
m = np.array((x,x))
m
array([[0, 1, 2, 3, 4, 5],
[0, 1, 2, 3, 4, 5]])
np.vstack((x,x))
array([[0, 1, 2, 3, 4, 5],
[0, 1, 2, 3, 4, 5]])
np.hstack((x,x))
array([0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5])
np.dstack((x,x))
array([[[0, 0],
[1, 1],
[2, 2],
[3, 3],
[4, 4],
[5, 5]]])
j = np.array([-1,2,-5,3])
j
array([-1, 2, -5, 3])
np.abs(j)
array([1, 2, 5, 3])
np.exp(j)
array([ 3.67879441e-01, 7.38905610e+00, 6.73794700e-03,
2.00855369e+01])
np.median(j)
0.5
np.cumsum(j)
array([-1, 1, -4, -1], dtype=int32)
#numpy内置了大量的函数,可以有空学习一下
import pandas as pd
import pandas as pd
s
import numpy as np
s = pd.Series([1,23,3,np.nan,4])
s
0 1.0
1 23.0
2 3.0
3 NaN
4 4.0
dtype: float64
s.index
s.values
s.index
RangeIndex(start=0, stop=5, step=1)
2:5
s[2:5]
2 3.0
3 NaN
4 4.0
dtype: float64
s[::2]
0 1.0
2 3.0
4 4.0
dtype: float64
s.index.name = ‘索引’
s
索引
0 1.0
1 23.0
2 3.0
3 NaN
4 4.0
dtype: float64
s.index = list(‘abdef’)
s
a 1.0
b 23.0
d 3.0
e NaN
f 4.0
dtype: float64
#不是一个左闭右开的区间,会把左右都闭了
s[‘a’:‘e’]#不是一个左闭右开的区间,会把左右都闭了
a 1.0
b 23.0
d 3.0
e NaN
dtype: float64
t
#构造一个时间序列
date = pd.date_range(‘20190101’,periods=6)
date
DatetimeIndex([‘2019-01-01’, ‘2019-01-02’, ‘2019-01-03’, ‘2019-01-04’,
‘2019-01-05’, ‘2019-01-06’],
dtype=‘datetime64[ns]’, freq=‘D’)
df = pd.DataFrame(np.random.randn(6,4))
df
df = pd.DataFrame(np.random.randn(6,4))
df
0 1 2 3
0 0.147151 2.161938 0.417361 -1.135012
1 -0.072582 -0.153942 -0.546795 -0.651333
2 1.539092 -0.356406 1.207155 0.938071
3 0.380663 -0.050007 0.304445 0.228046
4 0.740674 1.298658 -1.230738 -0.330170
5 -0.650334 -0.254496 -2.043521 0.739503
ABCD
df = pd.DataFrame(np.random.randn(6,4),index = date,columns=list(‘ABCD’))
df
A B C D
2019-01-01 0.286855 1.563525 0.522343 -0.663700
2019-01-02 -1.591582 0.582848 -2.090158 -0.491431
2019-01-03 -0.030706 1.144450 0.083008 1.724877
2019-01-04 1.040304 -0.352559 -0.210519 -1.609976
2019-01-05 0.332637 -1.168442 0.871328 0.038739
2019-01-06 -0.505438 -1.427666 -0.288223 0.004043
#构建DataFrame除了可以直接转入二维数组还可以通过字典的方式来构建
df2 = pd.DataFrame({‘A’:1.,‘B’:pd.Timestamp(‘20190101’),‘C’:pd.Series(1,index=list(range(4)),dtype = float),
‘D’:np.array([3]*4,dtype = int),‘E’:pd.Categorical([‘test’,‘train’,‘test’,‘test’]),
‘F’:[‘abc’,‘abc’,‘abc’,‘abc’]})
df2
A B C D E F
0 1.0 2019-01-01 1.0 3 test abc
1 1.0 2019-01-01 1.0 3 train abc
2 1.0 2019-01-01 1.0 3 test abc
3 1.0 2019-01-01 1.0 3 test abc
pd.Series(1,index=list(range(4)))
0 1
1 1
2 1
3 1
dtype: int64
pd.Categorical([‘test’,‘train’,‘test’,‘test’])
[test, train, test, test]
Categories (2, object): [test, train]
df.head(3)
A B C D
2019-01-01 0.286855 1.563525 0.522343 -0.663700
2019-01-02 -1.591582 0.582848 -2.090158 -0.491431
2019-01-03 -0.030706 1.144450 0.083008 1.724877
#查看最后三行
df.tail(3)#查看最后三行
A B C D
2019-01-04 1.040304 -0.352559 -0.210519 -1.609976
2019-01-05 0.332637 -1.168442 0.871328 0.038739
2019-01-06 -0.505438 -1.427666 -0.288223 0.004043
2
df2.index
Int64Index([0, 1, 2, 3], dtype=‘int64’)
df.columns
Index([‘A’, ‘B’, ‘C’, ‘D’], dtype=‘object’)
0
df.values[0]
array([ 0.28685496, 1.56352535, 0.52234279, -0.66370043])
df = pd.read_excel(‘豆瓣电影数据.xlsx’)
df.info()
<class ‘pandas.core.frame.DataFrame’>
Int64Index: 38738 entries, 0 to 38737
Data columns (total 9 columns):
名字 38178 non-null object
投票人数 38738 non-null float64
类型 38738 non-null object
产地 38738 non-null object
上映时间 38736 non-null object
时长 38738 non-null object
年代 38738 non-null object
评分 38738 non-null float64
首映地点 38737 non-null object
dtypes: float64(2), object(7)
memory usage: 3.0+ MB
df.head()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795.0 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995.0 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
2 美丽人生 327855.0 剧情/喜剧/爱情 意大利 1997-12-20 00:00:00 116 1997 9.5 意大利
3 阿甘正传 580897.0 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映
4 霸王别姬 478523.0 剧情/爱情/同性 中国大陆 1993-01-01 00:00:00 171 1993 9.4 香港
:
#行操作
df.iloc[:2]
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795.0 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995.0 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
反之多一行
df.loc[:2]#iloc比loc要少一行,反之多一行
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795.0 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995.0 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
2 美丽人生 327855.0 剧情/喜剧/爱情 意大利 1997-12-20 00:00:00 116 1997 9.5 意大利
dit = {‘名字’:‘复仇者联盟3’,‘投票人数’:‘123456’,‘类型’:‘剧情/科幻’,‘上映时间’:‘2018-05-04 00:00:00’,
‘时长’:142,‘年代’:2018,‘评分’:8.5,‘首映地点’:‘美国’,‘产地’:‘美国’}
dit = {‘名字’:‘复仇者联盟3’,‘投票人数’:‘123456’,‘类型’:‘剧情/科幻’,‘上映时间’:‘2018-05-04 00:00:00’,
‘时长’:142,‘年代’:2018,‘评分’:8.5,‘首映地点’:‘美国’,‘产地’:‘美国’}
dit
{‘上映时间’: ‘2018-05-04 00:00:00’,
‘产地’: ‘美国’,
‘名字’: ‘复仇者联盟3’,
‘年代’: 2018,
‘投票人数’: ‘123456’,
‘时长’: 142,
‘类型’: ‘剧情/科幻’,
‘评分’: 8.5,
‘首映地点’: ‘美国’}
s = pd.Series(dit)
s.name = 38738
s
上映时间 2018-05-04 00:00:00
产地 美国
名字 复仇者联盟3
年代 2018
投票人数 123456
时长 142
类型 剧情/科幻
评分 8.5
首映地点 美国
Name: 38738, dtype: object
df =
df = df.append(s)
df.tail()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
38735 血溅画屏 95 剧情/悬疑/犯罪/武侠/古装 中国大陆 1905-06-08 00:00:00 91 1986 7.1 美国
38736 魔窟中的幻想 51 惊悚/恐怖/儿童 中国大陆 1905-06-08 00:00:00 78 1986 8.0 美国
38737 列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме… 32 剧情/战争 苏联 1905-05-30 00:00:00 97 1977 6.6 美国
38738 复仇者联盟3 123456 剧情/科幻 NaN 2018-05-04 00:00:00 142 2018 8.5 美国
38738 复仇者联盟3 123456 剧情/科幻 美国 2018-05-04 00:00:00 142 2018 8.5 美国
df = df.drop([38738])
df.tail()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
38733 神学院 S 46 Adult 法国 1905-06-05 00:00:00 58 1983 8.6 美国
38734 1935年 57 喜剧/歌舞 美国 1935-03-15 00:00:00 98 1935 7.6 美国
38735 血溅画屏 95 剧情/悬疑/犯罪/武侠/古装 中国大陆 1905-06-08 00:00:00 91 1986 7.1 美国
38736 魔窟中的幻想 51 惊悚/恐怖/儿童 中国大陆 1905-06-08 00:00:00 78 1986 8.0 美国
38737 列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме… 32 剧情/战争 苏联 1905-05-30 00:00:00 97 1977 6.6 美国
#操作列
df.columns
Index([‘名字’, ‘投票人数’, ‘类型’, ‘产地’, ‘上映时间’, ‘时长’, ‘年代’, ‘评分’, ‘首映地点’], dtype=‘object’)
df[‘名字’][:5]
0 肖申克的救赎
1 控方证人
2 美丽人生
3 阿甘正传
4 霸王别姬
Name: 名字, dtype: object
’
df[[‘名字’,‘类型’]][:5]
名字 类型
0 肖申克的救赎 剧情/犯罪
1 控方证人 剧情/悬疑/犯罪
2 美丽人生 剧情/喜剧/爱情
3 阿甘正传 剧情/爱情
4 霸王别姬 剧情/爱情/同性
#增加列
df[‘序号’] = range(1,len(df)+1)
df.head()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点 序号
0 肖申克的救赎 692795 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节 1
1 控方证人 42995 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国 2
2 美丽人生 327855 剧情/喜剧/爱情 意大利 1997-12-20 00:00:00 116 1997 9.5 意大利 3
3 阿甘正传 580897 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映 4
4 霸王别姬 478523 剧情/爱情/同性 中国大陆 1993-01-01 00:00:00 171 1993 9.4 香港 5
df = df.drop(‘序号’,axis=1)
df.head()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
2 美丽人生 327855 剧情/喜剧/爱情 意大利 1997-12-20 00:00:00 116 1997 9.5 意大利
3 阿甘正传 580897 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映
4 霸王别姬 478523 剧情/爱情/同性 中国大陆 1993-01-01 00:00:00 171 1993 9.4 香港
df.loc[1,‘名字’]
‘控方证人’
评分
df.loc[[1,3,5,7,9],[‘名字’,‘评分’]]
名字 评分
1 控方证人 9.5
3 阿甘正传 9.4
5 泰坦尼克号 9.4
7 新世纪福音战士剧场版:Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai 9.4
9 这个杀手不太冷 9.4
#这个还是有用的,相当于where,产地 == 美国的电影
df[df[‘产地’] == ‘美国’].head()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
3 阿甘正传 580897 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映
5 泰坦尼克号 157074 剧情/爱情/灾难 美国 2012-04-10 00:00:00 194 2012 9.4 中国大陆
6 辛德勒的名单 306904 剧情/历史/战争 美国 1993-11-30 00:00:00 195 1993 9.4 华盛顿首映
df[(df.产地== ‘美国’)&(df.评分 > 9)].tail()
df[(df.产地== ‘美国’)&(df.评分 > 9)].tail()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
37951 欢乐树的朋友们:赶尽杀绝 4151 喜剧/动画 美国 2005-11-28 00:00:00 84 2005 9.2 美国
38119 山那边 70 剧情 美国 1975-11-14 00:00:00 103 1975 9.1 美国
38452 奎 62 纪录片/短片 美国 2015-08-19 00:00:00 9 2015 9.1 纽约电影论坛
38465 十二怒汉 466 剧情/悬疑/犯罪 美国 1954-09-20 00:00:00 52 1954 9.3 美国
38690 周六夜现场 193 喜剧/音乐 美国 2003-10-11 00:00:00 90 2003 9.4 美国
df[((df.产地 == ‘美国’)|(df.产地 == ‘中国大陆’))&(df.评分 > 9)].head()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
3 阿甘正传 580897 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映
4 霸王别姬 478523 剧情/爱情/同性 中国大陆 1993-01-01 00:00:00 171 1993 9.4 香港
5 泰坦尼克号 157074 剧情/爱情/灾难 美国 2012-04-10 00:00:00 194 2012 9.4 中国大陆
#缺失值和异常值处理
#缺失值的处理方法:dropna fillna isnull notnull
df[df.名字.isnull()][:10]
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
231 NaN 144 纪录片/音乐 韩国 2011-02-02 00:00:00 90 2011 9.7 美国
361 NaN 80 短片 其他 1905-05-17 00:00:00 4 1964 5.7 美国
369 NaN 5315 剧情 日本 2004-07-10 00:00:00 111 2004 7.5 日本
372 NaN 263 短片/音乐 英国 1998-06-30 00:00:00 34 1998 9.2 美国
374 NaN 47 短片 其他 1905-05-17 00:00:00 3 1964 6.7 美国
375 NaN 1193 短片/音乐 法国 1905-07-01 00:00:00 10 2010 7.7 美国
411 NaN 32 短片 其他 1905-05-17 00:00:00 3 1964 7.0 美国
432 NaN 1081 剧情/动作/惊悚/犯罪 美国 2016-02-26 00:00:00 115 2016 6.0 美国
441 NaN 213 恐怖 美国 2007-03-06 00:00:00 83 2007 3.2 美国
448 NaN 110 纪录片 荷兰 2002-04-19 00:00:00 48 2000 9.3 美国
df[‘评分’].mean()
6.93570395993591
df[‘名字’].fillna(‘未知电影’,inplace=True)
df.loc[231]
名字 未知电影
投票人数 144
类型 纪录片/音乐
产地 韩国
上映时间 2011-02-02 00:00:00
时长 90
年代 2011
评分 9.7
首映地点 美国
Name: 231, dtype: object
df[df.名字.isnull()][:10]
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
ue覆盖之前的数据
#inplace = True覆盖之前的数据
df.dropna()
名字 投票人数 类型 产地 上映时间 时长 年代 评分 首映地点
0 肖申克的救赎 692795 剧情/犯罪 美国 1994-09-10 00:00:00 142 1994 9.6 多伦多电影节
1 控方证人 42995 剧情/悬疑/犯罪 美国 1957-12-17 00:00:00 116 1957 9.5 美国
2 美丽人生 327855 剧情/喜剧/爱情 意大利 1997-12-20 00:00:00 116 1997 9.5 意大利
3 阿甘正传 580897 剧情/爱情 美国 1994-06-23 00:00:00 142 1994 9.4 洛杉矶首映
4 霸王别姬 478523 剧情/爱情/同性 中国大陆 1993-01-01 00:00:00 171 1993 9.4 香港
5 泰坦尼克号 157074 剧情/爱情/灾难 美国 2012-04-10 00:00:00 194 2012 9.4 中国大陆
6 辛德勒的名单 306904 剧情/历史/战争 美国 1993-11-30 00:00:00 195 1993 9.4 华盛顿首映
7 新世纪福音战士剧场版:Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai 24355 剧情/动作/科幻/动画/奇幻 日本 1997-07-19 00:00:00 87 1997 9.4 日本
8 银魂完结篇:直到永远的万事屋 劇場版 銀魂 完結篇 万事屋よ 21513 剧情/动画 日本 2013-07-06 00:00:00 110 2013 9.4 日本
9 这个杀手不太冷 662552 剧情/动作/犯罪 法国 1994-09-14 00:00:00 133 1994 9.4 法国
10 灿烂人生 16807 剧情/爱情/家庭 意大利 2003-06-22 00:00:00 366 2003 9.3 美国
11 疯狂动物城 284652 喜剧/动作/动画/冒险 美国 2016-03-04 00:00:00 109 2016 9.3 中国大陆/美国
12 福音战士新剧场版:破 ヱヴァンゲリヲン新劇場版: 32524 剧情/动作/科幻/动画 日本 2009-06-27 00:00:00 108 2009 9.3 美国
13 海豚湾 159302 纪录片 美国 2009-07-31 00:00:00 92 2009 9.3 美国
14 回忆积木小屋 つみきのい 93384 剧情/动画/短片 日本 2008-06-10 00:00:00 12 2008 9.3 美国
15 机器人总动员 421734 喜剧/爱情/科幻/动画/冒险 美国 2008-06-27 00:00:00 98 2008 9.3 美国
16 十二怒汉 134949 剧情 美国 1957-04-01 00:00:00 96 1957 9.3 美国
17 旅行到宇宙边缘 10044 纪录片 美国 2008-11-07 00:00:00 90 2008 9.3 美国
18 父与女 53358 剧情/动画/短片 英国 2001-05-27 00:00:00 60 2001 9.2 美国
19 暴力云与送子鹳 75567 喜剧/动画/短片/奇幻 美国 2009-05-29 00:00:00 6 2009 9.2 美国
20 城市之光 31105 剧情/喜剧/爱情 美国 1931-01-30 00:00:00 87 1931 9.2 美国
21 大闹天宫 74881 动画/奇幻 中国大陆 1905-05-14 00:00:00 114 1961 9.2 上集
22 盗梦空间 642134 剧情/动作/科幻/悬疑/冒险 美国 2010-09-01 00:00:00 148 2010 9.2 中国大陆
23 放牛班的春天 370585 剧情/音乐/儿童 法国 2004-10-16 00:00:00 97 2004 9.2 中国大陆
24 海上钢琴师 501153 剧情/音乐 意大利 1998-10-28 00:00:00 165 1998 9.2 意大利
25 家园 32717 纪录片 法国 2009-06-05 00:00:00 118 2009 9.2 美国
26 教父 280871 剧情/犯罪 美国 1972-03-15 00:00:00 175 1972 9.2 纽约首映
27 乱世佳人 226131 剧情/爱情/战争 美国 1939-12-15 00:00:00 238 1939 9.2 亚特兰大首映
28 千与千寻 千と千尋の神隠 525505 剧情/动画/奇幻 日本 2001-07-20 00:00:00 125 2001 9.2 日本
29 穹顶之下 51113 纪录片 中国大陆 2015-02-28 00:00:00 104 2015 9.2 中国大陆
… … … … … … … … … …
38708 洛奇 3211 剧情/运动 美国 1990-11-16 00:00:00 104 1990 7.5 美国
38709 孟菲斯美女号 1627 剧情/动作/战争 英国 1990-09-07 00:00:00 107 1990 8.4 美国
38710 末路英雄半世情 216 剧情 英国 1990-11-01 00:00:00 126 1990 8.1 美国
38711 活死人之夜 1326 恐怖 美国 1990-10-19 00:00:00 92 1990 6.8 美国
38712 省港旗兵3:逃出香港 省港旗兵第 1399 动作 中国香港 1989-01-12 00:00:00 100 1989 6.1 香港
38713 危险之至 85 剧情/动作/悬疑 美国 1989-01-13 00:00:00 100 1989 8.0 美国
38714 拯救首相 111 动作/战争 意大利 1989-12-22 00:00:00 85 1989 7.7 美国
38715 二二六 568 剧情/动作/战争 日本 1989-06-17 00:00:00 114 1989 6.9 美国
38716 华沙谍战 719 动作/传记/犯罪 波兰 2014-02-07 00:00:00 128 2014 7.0 波兰
38717 地狱·天堂 171 恐怖 中国大陆 1905-06-11 00:00:00 89 1989 6.2 美国
38718 达摩为何东渡? 291 剧情 韩国 1989-09-23 00:00:00 175 1989 8.1 韩国
38719 天伦乐 99 剧情 美国 1988-09-02 00:00:00 99 1988 8.5 美国
38720 青春禁忌游戏 Дорогая Елена Сергее 118 剧情 苏联 1988-04-12 00:00:00 94 1988 9.1 美国
38721 安迪·沃霍尔 40 纪录片/传记 英国 1987-06-09 00:00:00 76 1987 8.1 美国
38722 青春传奇 175 剧情/音乐/传记 美国 1987-07-24 00:00:00 108 1987 8.2 美国
38723 我要求审判 102 剧情/惊悚 美国 1987-11-20 00:00:00 116 1987 8.2 美国
38724 跷家的一夜 82 喜剧/动作/惊悚/冒险 美国 1987-07-01 00:00:00 102 1987 7.8 美国
38725 黑皮与白牙 黑皮與白 106 剧情 中国台湾 1987-02-01 00:00:00 97 1987 8.0 美国
38726 零下的激情 199 剧情/爱情/犯罪 美国 1987-11-06 00:00:00 98 1987 7.4 美国
38727 T省的八四、八五 380 剧情 中国大陆 1905-06-08 00:00:00 94 1986 8.7 美国
38728 离别秋波 240 剧情/爱情/音乐 美国 1986-02-19 00:00:00 90 1986 8.2 美国
38729 失踪的女中学生 101 儿童 中国大陆 1905-06-08 00:00:00 102 1986 7.4 美国
38730 喧闹村的孩子们 36 家庭 瑞典 1986-12-06 00:00:00 9200 1986 8.7 瑞典
38731 血战台儿庄 2908 战争 中国大陆 1905-06-08 00:00:00 120 1986 8.1 美国
38732 极乐森林 45 纪录片 美国 1986-09-14 00:00:00 90 1986 8.1 美国
38733 神学院 S 46 Adult 法国 1905-06-05 00:00:00 58 1983 8.6 美国
38734 1935年 57 喜剧/歌舞 美国 1935-03-15 00:00:00 98 1935 7.6 美国
38735 血溅画屏 95 剧情/悬疑/犯罪/武侠/古装 中国大陆 1905-06-08 00:00:00 91 1986 7.1 美国
38736 魔窟中的幻想 51 惊悚/恐怖/儿童 中国大陆 1905-06-08 00:00:00 78 1986 8.0 美国
38737 列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме… 32 剧情/战争 苏联 1905-05-30 00:00:00 97 1977 6.6 美国
38735 rows × 9 columns
len(df)
38738
df[(df.名字== ‘未知电影’)]
df1 = df[(df.名字== ‘未知电影’)].dropna()
!
df = df[(df.名字 != ‘未知电影’)]
f
len(df)
38178
df = df[df.投票人数>0]
df = df[df.投票人数>0]
%1 ==
df = df[df.投票人数%1 == 0]
len(df)
38171
sx
df.to_excel(‘豆瓣电影.xlsx’)