为了方便快速从百度搜索找到自己想要的信息,开始尝试。
第一步:爬取百度搜索第一页子网页的(文章、时间和url),非文章的则截屏
后面研究后更新。
import requests
from lxml import etree
import csv
import re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
#对于不是文章的网址,进行后台截屏
options = Options()
options.add_argument('start-maximized')
options.add_argument('--headless')
options.add_argument('--disable-gpu')
#驱动路径path
#C:\Dsoftdisk\Chrome\Google\Chrome\Application
path = 'C:\Dsoftdisk\Chrome\Google\Chrome\Application\chromedriver.exe'
brow=webdriver.Chrome(executable_path=path, options=options)
#获取文章内容
url = 'http://www.baidu.com.cn/s?wd=周杰伦'+'&pn=0'
#其实只用user-agent也没问题 有的url仅用user-agent不行,读不出数据
head = {'pragma': "no-cache",
'accept-encoding': "gzip, deflate, br",
'accept-language': "zh