一、爬取目标
本次爬取的是: 微博热搜榜
(代码也可直接在下方拿):
分别爬取每条热搜的:
热搜标题、热搜排名、热搜类别、热度、链接地址。
下面,对页面进行分析。
经过分析,此页面没有XHR链接通过,也就是说,没有采用AJAX异步技术。
所以,只能针对原页面进行爬取。
二、编写爬虫代码
2.1 前戏
首先,导入需要用到的库:
import pandas as pd # 存入excel数据 |
|
import requests # 向页面发送请求 |
|
from bs4 import BeautifulSoup as BS # 解析页面 |
定义一个爬取目标地址:
# 目标地址 |
|
url = 'https://s.weibo.com/top/summary?cate=realtimehot' |
定义一个请求头:
# 请求头 |
|
header = {
|
|
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 B |