Python:获取中国城市的天气预报json数据(B)

部署运行你感兴趣的模型镜像

上一篇(https://zhangphil.blog.youkuaiyun.com/article/details/110357488)已经知道如何获取某个城市的天气预报城市编码,接下来可以通过天气预报接开获取天气json数据:

import pandas as pd
import json
import urllib


def get_weather_data(city_code):
    url = f'http://www.weather.com.cn/data/cityinfo/{city_code}.html'
    response = urllib.request.urlopen(url)
    content = response.read().decode('utf-8')
    return content


def search_city_code(city_name):
    city_code = '-1'

    df = pd.read_json('city_code.json')
    for row in df.values:
        row_data = row[0]
        city_data = row_data['市']
        for cd in city_data:
            # print(cd['市名'], cd['编码'])
            if (city_name == cd['市名'] or cd['市名'] in city_name):
                city_code = cd['编码']
                break

    return city_code


if __name__ == '__main__':
    city_name_list = ['北京', '上海', '广州', '深圳', '成都']  # 获取以上五个城市天气数据
    for cn in city_name_list:
        city_code = search_city_code(cn)
        weather_data = get_weather_data(city_code)
        json_data = json.loads(weather_data)
        print(json_data)
        temp1 = json_data['weatherinfo']['temp1'].strip('℃')  # 清洗数据,保留纯粹的数字
        print(cn, temp1)

 

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

<think>好的,用户现在想用Python爬取百度搜索的天气预报数据。首先,我需要考虑用户的需求到底是什么。他们可能想要获取某个地区的天气情况,比如温度、湿度、风向等,但通过百度搜索的结果来抓取。不过,直接爬取百度搜索可能会遇到反爬虫机制,比如验证码或者IP封禁。所以,我需要提醒用户注意这些潜在的问题,并提供应对策略。 接下来,用户可能没有意识到百度搜索的结果页可能并不直接包含结构化的天气数据,而是链接到其他网站,比如气象局的官网或者第三方天气平台。这时候,可能需要先通过百度搜索找到正确的链接,再进一步爬取目标网站的数据。不过,这样步骤会更多,复杂度也更高,需要分步骤指导用户。 另外,用户可能希望有一个简单的解决方案,比如直接调用现有的天气API,这样更稳定和合法。例如,中国气象局提供的API或者第三方如和风天气、OpenWeatherMap等。这些方法可能更可靠,而且避免了法律风险。需要比较这两种方法的优缺点,供用户选择。 然后,考虑到用户的技术水平。如果他们刚开始学习爬虫,可能对处理反爬虫措施、解析动态加载的页面(如JavaScript渲染的内容)不太熟悉。这时候,可能需要建议使用requests库和BeautifulSoup,或者提到Selenium用于处理动态内容。同时,提醒设置请求头中的User-Agent,模拟浏览器访问,减少被封禁的风险。 还要注意法律和道德问题。爬取数据可能违反网站的服务条款,特别是商业用途。需要提醒用户遵守相关法律法规,尊重网站的robots.txt文件,避免高频访问导致服务器压力。 用户的问题可能分为几个步骤:发送搜索请求、解析搜索结果、提取天气数据。但百度搜索的结果页结构可能经常变化,导致代码需要频繁维护。需要建议用户定期检查并更新解析逻辑,或者考虑使用更稳定的数据源。 另外,可能用户真正需要的是实时天气数据,而百度搜索的结果可能不够实时或结构化。这时候,推荐使用专门的天气API会更合适。例如,和风天气需要注册获取API key,但数据更准确和可靠。 最后,给出代码示例时,需要确保代码尽可能健壮,包含异常处理,比如网络请求失败、解析元素不存在等情况。同时,提醒用户不要滥用爬虫,设置合理的请求间隔,尊重网站的服务条款。</think>在Python中爬取百度搜索的天气预报数据需要注意 **合法性、反爬机制和数据解析逻辑**。以下是分步实现方案和关键注意事项: --- ### 一、核心问题与风险 1. **法律合规性**: - 百度搜索禁止未经授权的数据抓取(违反《反不正当竞争法》) - 天气预报数据应优先使用 **中国气象局官方API**(如中央气象台接口) 2. **技术难点**: - 百度反爬机制(IP封禁、验证码、请求频率限制) - 动态渲染页面(JavaScript生成内容) --- ### 二、推荐替代方案(合法途径) ```python # 使用中国气象局官方API示例(需申请授权) import requests url = "http://www.weather.com.cn/data/sk/101010100.html" # 北京城市代码 response = requests.get(url) weather_data = response.json() print(f"温度: {weather_data['weatherinfo']['temp']}℃, 湿度: {weather_data['weatherinfo']['SD']}") ``` #### 其他合法数据源: - 和风天气API (https://www.qweather.com) - OpenWeatherMap (需注册API key) - 高德地图天气API (需企业认证) --- ### 三、百度搜索爬取技术实现(仅供学习参考) #### 步骤1:模拟浏览器请求 ```python import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' } search_url = "https://www.baidu.com/s?wd=北京天气预报" response = requests.get(search_url, headers=headers) ``` #### 步骤2:解析动态内容(需处理JavaScript渲染) ```python # 若页面内容为JS动态加载,需使用 selenium from selenium import webdriver driver = webdriver.Chrome() driver.get(search_url) html = driver.page_source driver.quit() ``` #### 步骤3:定位天气数据(示例) ```python soup = BeautifulSoup(html, 'html.parser') # 百度天气卡片通常包含在 <div class="op_weather4_twoicon"> 中 weather_div = soup.find('div', class_='op_weather4_twoicon') if weather_div: temp = weather_div.find('div', class_='op_weather4_twoicon_temp').text weather = weather_div.find('div', class_='op_weather4_twoicon_weath').text print(f"当前温度: {temp}, 天气状况: {weather}") else: print("未找到天气数据,可能触发反爬虫") ``` --- ### 四、反反爬虫策略 | 措施 | 实现方式 | |---------------------|--------------------------------------------------------------------------| | 代理IP轮询 | 使用付费代理服务(如快代理、芝麻代理) | | 请求速率限制 | 每次请求后添加 `time.sleep(random.uniform(1,3))` | | 请求头伪装 | 随机切换User-Agent、Referer等头信息 | | Cookie持久化 | 使用 `requests.Session()` 维持会话 | | 验证码破解 | 对接打码平台(如超级鹰),成本约¥0.5-2/100次 | --- ### 五、法律风险规避建议 1. 优先使用 **官方授权API** 2. 遵守 `robots.txt` 协议(百度robots:https://www.baidu.com/robots.txt) 3. 禁止商业用途爬取 4. 单机请求频率建议:<30次/分钟 --- ### 六、完整代码示例(含异常处理) ```python import requests import time import random from bs4 import BeautifulSoup def get_baidu_weather(city): try: url = f"https://www.baidu.com/s?wd={city}天气预报" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...' } # 使用代理示例(需自行配置) proxies = { 'http': 'http://12.34.56.78:8888', 'https': 'http://12.34.56.78:8888' } response = requests.get(url, headers=headers, proxies=proxies, timeout=10) response.raise_for_status() soup = BeautifulSoup(response.text, 'html.parser') weather_data = soup.find('div', class_='op_weather4_twoicon') if not weather_data: return {"error": "数据结构已更新或触发反爬"} return { 'temperature': weather_data.find('div', class_='op_weather4_twoicon_temp').text, 'weather': weather_data.find('div', class_='op_weather4_twoicon_weath').text } except Exception as e: print(f"抓取失败: {str(e)}") return None # 使用示例 time.sleep(random.uniform(1, 3)) # 请求间隔 result = get_baidu_weather("北京") print(result) ``` --- ### 七、更优方案推荐 ```mermaid graph LR A[数据需求] --> B{是否必须用百度} B -->|是| C[严格限制频率+商用授权] B -->|否| D[使用合法API] D --> E[中国气象局] D --> F[和风天气] D --> G[高德/腾讯地图API] ``` 建议优先选择合法API接口,既规避法律风险,又能获得稳定结构化数据。如需长期使用天气数据,可购买商业API服务(如和风天气企业版约¥2000/年)。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangphil

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值