运用selenium、xpath爬取重庆大学信管系老师在知网上的前二十篇论文摘要(csdn小白的第一篇博客)
爬取思路如下:
- 通过selenium定位老师知网页面
- 找到该老师每篇论文的url
- 根据url找到对应的摘要
- 将所有的标题和摘要写入txt文件
接下来逐步实现爬取过程
1. 通过selenium定位老师知网页面
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from lxml import etree
import time
import requests
def find_teacher_and_school(teacher,school='重庆大学'):#定位老师知网界面
browser = webdriver.Chrome()
browser.get('https://www.cnki.net')
browser.find_element_by_xpath('//*[@id="txt_SearchText"]').send_keys(teacher+' '+school)
browser.find_element_by_xpath('//*[@id="txt_SearchText"]').send_keys(Keys.ENTER)
time.sleep(2)
browser.find_element_by_xpath('//*[@id="recommandconLink"]').click()
time.sleep(5)
browser.switch_to.frame(