Python爬虫urllib之模拟百度搜索

最新推荐文章于 2024-07-10 21:29:41 发布

原创最新推荐文章于 2024-07-10 21:29:41 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

urllib 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Python进行百度搜索的网页爬虫方法，通过输入搜索内容，利用urllib库实现URL编码和请求发送，获取并打印网页源代码。适合初学者了解网页爬虫的基本流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网页规律
wd后面为你输入的字符串内容
https://www.baidu.com/s?wd=
获取输入的搜索字符串内容

wd = input('输入搜索内容：')

将字符串URL编码


qs = {
        'wd': wd
    }
    qs = parse.urlencode(qs)

修改网页地址

url = 'http://www.baidu.com/s?'
fullurl = url + qs

整个代码为

from urllib import request, parse
if __name__ == '__main__':
    url = 'http://www.baidu.com/s?'
    wd = input('输入搜索内容：')
    qs = {
        'wd': wd
    }
    qs = parse.urlencode(qs)
    print(qs)

    fullurl = url + qs
    print(fullurl)

    rsp = requests.urlopen(fullurl)
    html = rsp.text
    rsp.encodng = 'utf-8'
    print(html)
    ```