今天美赛成绩出来了,S奖,有点遗憾。但工作还是要继续,因为要下载校队的获奖证书,所以使用python爬虫来爬取证书,省点事。
python操作excel
在这里我选择pandas库来操作excel,详情见http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html?highlight=excel#writing-excel-files
主要有:
-
ReadFile类
-
WriteFIle类
-
read_excel(path, sheet_name)
path指定excel文件路径,sheet_name指定操作的工作表(一个或多个)
-
to_excel(path,sheet_name)
path指定excel文件路径,sheet_name指定操作的工作表(一个或多个)
例:
xlsx = pd.ExcelFile('path_to_file.xls')
df = pd.read_excel(xlsx, 'Sheet1')
上面的例子中我们得到了一个DataFrame类型数据df,接下来的操作就简单很多了(DataFrame常规操作)
比如我们获取df的第一行第二列的数据:
df.ix[0,1].values
获取第五列:
df.ix[:, 4].values 得到一个列表
爬取美赛证书代码
"""
爬取美赛校队获奖证书,并以控制号命名
control_number_excel_file_path为含有控制号的excel文件
默认存储路径为桌面美赛论文文件夹,故需要在桌面新建“美赛论文”文件夹
缺少异常处理
没有提供对外接口
"""
import requests
import pandas