这个第二天呢,没怎么爬好,也是时间不够充裕吧,我就暂时先随便写一下。
既然要用正则和requests请求,那就肯定先要导入这两个库,由于这个正则我也没怎么学好,所以总是匹配的不准,我又加入了一个BeautifulSoup解析库。
import re
import requests
from bs4 import BeautifulSoup
name_list = []
country_list = []
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
def get_page(url):
r = requests.get(url=url,headers=header)
return r.text
def parsed_page(html):
soup = BeautifulSoup(html,'html.parser')
for i in soup.find_all('span',class_="title"):
# print(i.text) #标题
name_list.append(i.text)
for i in soup.find_all('p',class_=""):
# print(i.text) #国家
country_list.append(i.text)
for i in range(0,20):
print((name_list[i],country_list[i]))
def main():
urls = []
for i in range(9):
url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
urls.append(url)
for u in urls:
url = u
html = get_page(url)
parsed_page(html)
if __name__ == "__main__":
main()
这时我暂时写的一点代码块,有很多没做好的地方,我后续再修改。
实际上我已经用数组已经把他们都存下来了,也可以用with函数对这些数组储存入文件中。还有编码确实也没做好,数据处理还能够用切片修饰下的,有做的不好的地方,我后续再改