python爬虫Beautiful Soup基础知识--第二篇用post方式获取网页请求

from bs4 import BeautifulSoup
import requests
import urllib.request
#模拟一个浏览器请求
head = {"user-agent": ""}
url="https://movie.douban.com"#第一个页面
request = urllib.request.Request(url, headers=head)#创建了一个HTTP请求对象
response=urllib.request.urlopen(request)#发送请求并接收响应:
html=response.read().decode('utf-8')
bs=BeautifulSoup(html,'html.parser')
print(bs.title)

user-agent自己补充

# -*- codeing = utf-8 -*-
# @Time:2024/10/30 19:27
# @Author : 
# @File : mybs.py
# @Software : PyCharm

from bs4 import BeautifulSoup
import requests
import urllib.request


def askurl(url):
    #模拟一个浏览器请求
    head = {"user-agent:" "}
    request = urllib.request.Request(url, headers=head)#创建了一个HTTP请求对象
    response=urllib.request.urlopen(request)#发送请求并接收响应:
    html=response.read().decode('utf-8')
    bs=BeautifulSoup(html,'html.parser')
    print(bs.a.text)

def main():
    baseurl = "https://movie.douban.com/top250?start="  # 第一个页面
    for i in range(0,10):
        url = baseurl + str(i*25)
        askurl(url)

if __name__ == '__main__':          #当程序执行时
#调用函数
    main()

### Python 爬虫入门基础知识 #### 掌握 Python 3 的基本语法 对于希望进入爬虫领域的新手来说,熟悉 Python 3 是必不可少的第一步。Python 3 提供了一种简单而强大的编程方式来处理网络请求并解析网页数据[^3]。 #### 安装必要的库 为了简化 HTTP 请求以及 HTML 解析的过程,在开始编写第一个爬虫之前应当安装一些常用的第三方模块: - `requests`:用于发起 GET/POST 请求获取页面源码; - `BeautifulSoup4 (bs4)` 或者 `lxml` :用来提取所需的数据片段; ```bash pip install requests beautifulsoup4 lxml ``` #### 编写简单的抓取程序 下面是一个利用上述两个包完成的小例子,它会访问指定 URL 并打印出该网站标题: ```python import requests from bs4 import BeautifulSoup def fetch_page_title(url): response = requests.get(url) if response.status_code != 200: raise Exception(f"Failed to load page {url}") soup = BeautifulSoup(response.text, 'html.parser') title_tag = soup.find('title') return title_tag.string.strip() if title_tag else "No Title Found" if __name__ == "__main__": url_to_scrape = input("Enter the website you want to scrape:") try: print(fetch_page_title(url_to_scrape)) except Exception as e: print(e) ``` 这段代码展示了如何通过发送 HTTP 请求获得目标站点的内容,并使用 Beautiful Soup 来定位和读取 `<title>` 标签内的文字[^1]。 #### 遵守道德准则与法律条款 当构建自己的 Web Scraper 工具时,请务必注意遵循各网站的服务协议(TOS),尊重 Robots Exclusion Protocol (robots.txt 文件中的指示)。此外还要考虑到频率控制等问题以免给服务器带来过大压力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值