其实数学建模过去了,反而不知道更新什么。最近在学统计学之类的东西,还有网络爬虫,就更一些实例吧。网络爬虫刚考完期末考,脑子里面的知识还新鲜。
网络爬虫其实是要磨洋工,当你写不会的时候,放一下再写也没关系。我的实例写了两三天吧,也是断断续续的写。
我们的期末项目是爬取疫情信息,我的selenium使用了两种方法。这篇东西就先写第一个方法,后面有时间就更新第二个方法。
项目要求:获取三页的所有疫情消息,并把疫情消息写进txt或者excel中。
思路一:
首先导入需要的包:记得如果要用selenium的话,需要使用谷歌浏览器模拟点击,安装chromedriver。应该优快云有相关的帖子,大佬们写得很全面,需要的话可以去搜一下,这里不做过多赘述。
import re
from selenium import webdriver
import time
import pandas
import numpy as np
from selenium.webdriver.common.by import By # 导入相关的包
其次获得三页的父页网址,并放在一个列表中。如果网址少,可以这么做,但是网址多建议还是找规律进行循环生成网址。
list=['存放网址列表']
我们首先模拟打开一个网页,爬取的第一步是要获取父层的源代码。所以将窗口最大化,并且使用browser.get()函数获取源代码。
browser = webdriver.Chrome()
browser.maximize_window() # 窗口最大化
browser.get(c)
data = browser.page_source # 获取父层页面的源代码
browser.get()的括号里面放的是网址url。所以我设置了一个循环,循环获取之前列表里面存在的网址