python爬虫Beautiful Soup基础知识--第二篇用post方式获取网页请求

原创已于 2024-11-03 12:56:55 修改 · 218 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

于 2024-10-30 22:07:14 首次发布

from bs4 import BeautifulSoup
import requests
import urllib.request
#模拟一个浏览器请求
head = {"user-agent": ""}
url="https://movie.douban.com"#第一个页面
request = urllib.request.Request(url, headers=head)#创建了一个HTTP请求对象
response=urllib.request.urlopen(request)#发送请求并接收响应：
html=response.read().decode('utf-8')
bs=BeautifulSoup(html,'html.parser')
print(bs.title)

user-agent自己补充

# -*- codeing = utf-8 -*-
# @Time:2024/10/30 19:27
# @Author : 
# @File : mybs.py
# @Software : PyCharm

from bs4 import BeautifulSoup
import requests
import urllib.request


def askurl(url):
    #模拟一个浏览器请求
    head = {"user-agent:" "}
    request = urllib.request.Request(url, headers=head)#创建了一个HTTP请求对象
    response=urllib.request.urlopen(request)#发送请求并接收响应：
    html=response.read().decode('utf-8')
    bs=BeautifulSoup(html,'html.parser')
    print(bs.a.text)

def main():
    baseurl = "https://movie.douban.com/top250?start="  # 第一个页面
    for i in range(0,10):
        url = baseurl + str(i*25)
        askurl(url)

if __name__ == '__main__':          #当程序执行时
#调用函数
    main()