BeautifulSoup练习

中国天气网

http://www.weather.com.cn/textFC/hb.shtml
爬取除了港澳台所有地区的城市名和最低气温
然后再获取温度最低是个城市

import requests
from bs4 import BeautifulSoup
from pyecharts.charts import Bar
from pyecharts import options

headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}


req = requests.get('http://www.weather.com.cn/textFC/hb.shtml', headers=headers)
req.encoding = 'utf-8'

# bs4获取数据
soup = BeautifulSoup(req.text, 'lxml')


# 获取不同地区的href
hrefs = ["http://www.weather.com.cn" + obj.get('href') for obj in soup.select('.lq_contentboxTab2 a')[:-1]]

# 创建一个全局变量用来接受数据
data = []

def get_data(url):
    req = requests.get(url, headers=headers)
    req.encoding = 'utf-8'

    # bs4获取数据
    soup = BeautifulSoup(req.text, 'lxml')

    # select方法返回的对象,可以继续使用select方法查找他的子元素
    divs = soup.select('.conMidtab')[0].select('.conMidtab2')

    for div in divs:
        trs = div.select('tr')[2:]
        for tr in trs:
            city = tr.select('td')[-8].get_text().strip()
            wendu = tr.select('td')[-2
以下是使用 `BeautifulSoup` 编写爬虫输出小说章节名的示例代码: ```python import requests from bs4 import BeautifulSoup # 目标小说章节页面的URL url = '这里填入具体的小说章节页面URL' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} try: # 发送请求获取网页内容 response = requests.get(url, headers=headers) response.raise_for_status() response.encoding = response.apparent_encoding # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 根据实际情况找到章节名所在的标签和属性 # 这里假设章节名在<h3>标签且class为'j_chapterName'中,可根据实际调整 chapter_name_tag = soup.find('h3', attrs={'class': 'j_chapterName'}) if chapter_name_tag: chapter_name = chapter_name_tag.getText() print(f"小说章节名: {chapter_name}") else: print("未找到章节名信息,请检查HTML结构。") except requests.RequestException as e: print(f"请求出错: {e}") ``` ### 代码解释 1. **导入必要的库**:导入 `requests` 用于发送HTTP请求,`BeautifulSoup` 用于解析HTML内容。 2. **设置请求头和URL**:设置请求头模拟浏览器访问,避免被网站反爬机制拦截;设置目标小说章节页面的URL。 3. **发送请求并获取网页内容**:使用 `requests.get()` 方法发送请求,使用 `raise_for_status()` 检查请求是否成功,设置编码为网页实际编码。 4. **解析HTML内容**:使用 `BeautifulSoup` 解析HTML内容,指定解析器为 `lxml`。 5. **查找章节名标签**:根据实际情况找到章节名所在的标签和属性,使用 `find()` 方法查找。 6. **输出章节名**:如果找到章节名标签,使用 `getText()` 方法获取章节名并输出;否则输出提示信息。 7. **异常处理**:使用 `try-except` 块捕获请求过程中可能出现的异常,并输出错误信息。 ### 注意事项 - 请将 `url` 替换为实际的小说章节页面URL。 - 章节名所在的标签和属性可能因网站而异,需要根据实际情况进行调整。
评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值