python 爬虫学习笔记(六)
【Python网络爬虫与信息提取】.MOOC. 北京理工大学
-
淘宝商品信息定向爬取
- 定向爬虫可行性判断:robots协议
- 程序结构设计:
- 提交请求
- 提取每个页面信息
- 将信息输出到屏幕
-
步骤:(参考博客)
-
登录淘宝网
-
(Chrom浏览器)F12,选择network
-
输入任意商品信息,点击搜索
-
找到search?q=…右键 => copy => copy as cURL(bash)
-
打开网址:https://curl.trillworks.com/#python,将复制的内容粘贴到左边的curl command框中,得到Python requests,复制该框中的header内容,粘贴到getHtmlText(url)函数中
-
# 视频43 淘宝商品信息爬取
import requests
import re
def getHtmlText(url): #获得页面
try:
header = {
'authority': 's.taobao.com',
'cache-control': 'max-age=0',
'upgrade-insecure-requests': '1',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
'sec-fetch-user': '?1',
'accept': 'text