刚开始接触网络爬虫,记录自己的学习历程。
开发环境:python 3.6 IDLE
爬取对象及任务:爬取学院网站上教师的信息,将教师照片保存在某一文件下。
url = 'http://cmee.nwafu.edu.cn/szdw/gjzcry/index.htm'
程序代码:
import requests
import bs4
import os
from bs4 import BeautifulSoup
import re
#获得url文本信息并返回
def getHTMLText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
#使用BeautifulSoup类进行解析,将a标签中的内容存入列表中
def fillName(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tag in soup.find_all('a'):
ulist.append([tag.string, tag.attrs['href']])
#获得每个教师的名字信息和href属性中的网站信息,并打印出来。可参考图1
def getName(ulist):
tplt = "{:^10}\t{:<50}"
print(tplt.format("姓名", "网址"))
for i in range