Python爬取微博数据实战教程:从入门到进阶

包含编程籽料、学习路线图、爬虫代码、安装包等!【点击领取】

微博作为中国最大的社交媒体平台之一,蕴含着丰富的用户行为数据和舆情信息。本文将带你使用Python实现微博数据爬取,涵盖基础爬虫到反反爬策略的完整解决方案。

一、爬取微博数据前的准备工作
1.1 环境配置
首先确保安装以下Python库:

pip install requests beautifulsoup4 selenium pyquery pymongo

1.2 微博爬虫的法律边界
重要提醒:

仅爬取公开数据

控制请求频率(建议≥3秒/次)

不爬取用户隐私信息

二、基础版:微博热搜榜爬取

import requests
from bs4 import BeautifulSoup

def get_weibo_hot():
    url = "https://s.weibo.com/top/summary"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        hot_items = soup.select('#pl_top_realtimehot table tbody tr')
        
        for item in hot_items[1:]:  # 跳过表头
            rank = item.select_one('td.td-01').text
            title = item.select_one('td.td-02 a').text
            hot = item.select_one('td.td-02 span').text if item.select_one('td.td-02 span') else ''
            print(f"{rank} {title} {hot}")
            
    except Exception as e:
        print(f"获取数据失败: {e}")

get_weibo_hot()

三、进阶版:模拟登录获取完整数据
微博需要登录才能获取更多数据,我们可以使用Selenium模拟登录:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def weibo_login(username, password):
    driver = webdriver.Chrome()
    driver.get("https://weibo.com/login.php")
    
    try:
        # 等待用户名输入框加载
        user_input = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "loginname"))
        user_input.send_keys(username)
        
        # 输入密码
        password_input = driver.find_element(By.NAME, "password")
        password_input.send_keys(password)
        
        # 点击登录按钮
        submit = driver.find_element(By.XPATH, '//a[@node-type="submitBtn"]')
        submit.click()
        
        # 等待登录完成
        time.sleep(5)
        
        # 获取登录后的cookies
        cookies = driver.get_cookies()
        print("登录成功!Cookies:", cookies)
        
        return cookies
        
    finally:
        driver.quit()

# 使用示例
weibo_cookies = weibo_login("你的用户名", "你的密码")

四、专业版:使用API获取结构化数据
微博有未公开的移动端API,我们可以通过抓包分析获取:

import requests
import json

def get_weibo_detail(weibo_id, cookies):
    url = f"https://m.weibo.cn/statuses/show?id={weibo_id}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1',
        'X-Requested-With': 'XMLHttpRequest'
    }
    
    response = requests.get(url, headers=headers, cookies=cookies)
    if response.status_code == 200:
        data = json.loads(response.text)
        return data.get('data', {})
    return None

# 使用示例
weibo_data = get_weibo_detail("Lk4nA9K7j", weibo_cookies)
print(json.dumps(weibo_data, indent=2, ensure_ascii=False))

五、数据存储方案
5.1 存储到MongoDB

from pymongo import MongoClient

def save_to_mongo(data, collection_name):
    client = MongoClient('mongodb://localhost:27017/')
    db = client['weibo_db']
    collection = db[collection_name]
    
    result = collection.insert_one(data)
    print(f"插入成功,文档ID: {result.inserted_id}")

# 使用示例
save_to_mongo(weibo_data, 'weibo_details')

5.2 存储到CSV文件

import csv

def save_to_csv(data, filename):
    with open(filename, 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow([
            data.get('created_at', ''),
            data.get('user', {}).get('screen_name', ''),
            data.get('text', ''),
            data.get('reposts_count', 0),
            data.get('comments_count', 0),
            data.get('attitudes_count', 0)
        ])

# 使用示例
save_to_csv(weibo_data, 'weibo_data.csv')

六、反反爬策略
6.1 使用代理IP

proxies = {
    'http': 'http://127.0.0.1:8888',
    'https': 'http://127.0.0.1:8888'
}

response = requests.get(url, headers=headers, proxies=proxies)

6.2 随机User-Agent

from fake_useragent import UserAgent

ua = UserAgent()
headers = {
    'User-Agent': ua.random
}

6.3 请求间隔随机化

import random
import time

time.sleep(random.uniform(1, 3))

七、数据分析示例

import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('weibo_data.csv')

# 简单分析
top_users = df['screen_name'].value_counts().head(10)
top_users.plot(kind='barh')
plt.title('微博发布量Top10用户')
plt.show()

八、完整项目结构建议

weibo-spider/
├── config.py          # 配置文件
├── spiders/           # 爬虫核心代码
│   ├── __init__.py
│   ├── hot_search.py  # 热搜榜爬虫
│   ├── weibo_api.py   # API接口爬虫
│   └── comments.py    # 评论爬虫
├── utils/             # 工具函数
│   ├── login.py       # 登录模块
│   ├── proxy.py       # 代理管理
│   └── storage.py     # 存储模块
└── main.py            # 主程序入口

九、注意事项
频率控制:微博有严格的频率限制,建议设置3秒以上的请求间隔

验证码处理:频繁访问会触发验证码,需准备打码平台接口

数据清洗:微博正文包含HTML标签和表情符号,需要特殊处理

更新维护:微博前端结构经常变动,爬虫需要定期更新

十、结语
本文从基础到进阶讲解了微博数据爬取的多种方法,涵盖了网页解析、API调用、数据存储等关键环节。实际开发中,建议结合具体需求选择合适的方案,并始终遵守相关法律法规。

最后:
希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力!相信自己!

文末福利
最后这里免费分享给大家一份Python全套学习资料,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。

包含编程资料、学习路线图、源代码、软件安装包等!【点击领取!】
① Python所有方向的学习路线图,清楚各个方向要学什么东西
② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例,学习不再是只会理论
④ 华为出品独家Python漫画教程,手机也能学习

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值