一、url中请求参数的处理
如果请求中有参数时,我们需要把key-value转换为字符串
#url
url="http://www.baidu.com/s?"
#请求参数
params={"wd":"pyhon爬虫"}
#将请求参数转换成url编码格式(字符串)
paramsStr=urllib.parse.urlencode(params)
url=url+paramsStr
二、实例—带有请求参数的爬虫
1.步骤
1、请求url(参数格式转换)
2、opener(代理ip)
3、创建请求对象(不同浏览器)
4、发送请求
5、正则清洗数据
2.脚本
import random
import re
import urllib
from urllib import request
#url
url="http://www.baidu.com/s?"
#请求参数
params={"wd":"pyhon爬虫"}
#将请求参数转换成url编码格式(字符串)
paramsStr=urllib.parse.urlencode(params)
url=url+paramsStr
#代理ip
proxylist=[{"http":"120.194.18.90:81"},{"http":"39.137.168.229:80"}]
proxy=random.choice(proxylist)
print(proxy)
#在headers设置不同User-Agent,模拟不同浏览器
agent1="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
agent2="Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.102