使用python写一个爬取百度前10条热搜

本文展示了如何使用Python的requests和BeautifulSoup库抓取百度热搜排行榜的前10个关键词,包括发送HTTP请求、解析HTML以及模拟用户代理。同时提及了与软件测试相关的资源,如测试面试题和自动化测试等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import requests
from bs4 import BeautifulSoup

def get_baidu_hot():
    url = 'https://top.baidu.com/board?tab=realtime'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
    }
    
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    hot_items = soup.find_all('div', class_='title')
    
    hot_searches = []
    for item in hot_items[:10]:
        rank = item.find('span').get_text()
        keyword = item.find('a').get_text()
        hot_searches.append(f'{rank}. {keyword}')
    
    return hot_searches

# 调用函数获取百度前10条热搜
results = get_baidu_hot()

# 打印结果
for result in results:
    print(result)

在上述代码中,我们使用requests库发送HTTP请求获取百度热搜榜单的页面内容。然后使用BeautifulSoup库解析HTML页面,并通过CSS选择器定位到热搜关键词所在的HTML元素。最后,我们提取前10个热搜关键词的排名和关键词内容,并存储在hot_searches列表中。

注意,为了模拟浏览器的请求,我们在代码中添加了User-Agent头部信息,这有助于避免被网站识别为爬虫。同时,请确保安装了requestsbeautifulsoup4库,可以使用pip install requests beautifulsoup4命令进行安装。

福利
为方便大家自学软件测试,分享更多测试资料
主体内容包含:测试面试题,功能测试、性能测试、自动化测试等学习知识内容。
软件测试自学资料包领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值