包含编程籽料、学习路线图、爬虫代码、安装包等!【点击领取】
微博作为中国最大的社交媒体平台之一,蕴含着丰富的用户行为数据和舆情信息。本文将带你使用Python实现微博数据爬取,涵盖基础爬虫到反反爬策略的完整解决方案。
一、爬取微博数据前的准备工作
1.1 环境配置
首先确保安装以下Python库:
pip install requests beautifulsoup4 selenium pyquery pymongo
1.2 微博爬虫的法律边界
重要提醒:
仅爬取公开数据
控制请求频率(建议≥3秒/次)
不爬取用户隐私信息
二、基础版:微博热搜榜爬取
import requests
from bs4 import BeautifulSoup
def get_weibo_hot():
url = "https://s.weibo.com/top/summary"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
try:
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
hot_items = soup.select('#pl_top_realtimehot table tbody tr')
for item in hot_items[1:]: # 跳过表头
rank = item.select_one('td.td-01').text
title = item.select_one('td.td-02 a').text
hot = item.select_one('td.td-02 span').text if item.select_one('td.td-02 span') else ''
print(f"{rank} {title} {hot}")
except Exception as e:
print(f"获取数据失败: {e}")
get_weibo_hot()
三、进阶版:模拟登录获取完整数据
微博需要登录才能获取更多数据,我们可以使用Selenium模拟登录:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
def weibo_login(username, password):
driver = webdriver.Chrome()
driver.get("https://weibo.com/login.php")
try:
# 等待用户名输入框加载
user_input = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "loginname"))
user_input.send_keys(username)
# 输入密码
password_input = driver.find_element(By.NAME, "password")
password_input.send_keys(password)
# 点击登录按钮
submit = driver.find_element(By.XPATH, '//a[@node-type="submitBtn"]')
submit.click()
# 等待登录完成
time.sleep(5)
# 获取登录后的cookies
cookies = driver.get_cookies()
print("登录成功!Cookies:", cookies)
return cookies
finally:
driver.quit()
# 使用示例
weibo_cookies = weibo_login("你的用户名", "你的密码")
四、专业版:使用API获取结构化数据
微博有未公开的移动端API,我们可以通过抓包分析获取:
import requests
import json
def get_weibo_detail(weibo_id, cookies):
url = f"https://m.weibo.cn/statuses/show?id={weibo_id}"
headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1',
'X-Requested-With': 'XMLHttpRequest'
}
response = requests.get(url, headers=headers, cookies=cookies)
if response.status_code == 200:
data = json.loads(response.text)
return data.get('data', {})
return None
# 使用示例
weibo_data = get_weibo_detail("Lk4nA9K7j", weibo_cookies)
print(json.dumps(weibo_data, indent=2, ensure_ascii=False))
五、数据存储方案
5.1 存储到MongoDB
from pymongo import MongoClient
def save_to_mongo(data, collection_name):
client = MongoClient('mongodb://localhost:27017/')
db = client['weibo_db']
collection = db[collection_name]
result = collection.insert_one(data)
print(f"插入成功,文档ID: {result.inserted_id}")
# 使用示例
save_to_mongo(weibo_data, 'weibo_details')
5.2 存储到CSV文件
import csv
def save_to_csv(data, filename):
with open(filename, 'a', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow([
data.get('created_at', ''),
data.get('user', {}).get('screen_name', ''),
data.get('text', ''),
data.get('reposts_count', 0),
data.get('comments_count', 0),
data.get('attitudes_count', 0)
])
# 使用示例
save_to_csv(weibo_data, 'weibo_data.csv')
六、反反爬策略
6.1 使用代理IP
proxies = {
'http': 'http://127.0.0.1:8888',
'https': 'http://127.0.0.1:8888'
}
response = requests.get(url, headers=headers, proxies=proxies)
6.2 随机User-Agent
from fake_useragent import UserAgent
ua = UserAgent()
headers = {
'User-Agent': ua.random
}
6.3 请求间隔随机化
import random
import time
time.sleep(random.uniform(1, 3))
七、数据分析示例
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv('weibo_data.csv')
# 简单分析
top_users = df['screen_name'].value_counts().head(10)
top_users.plot(kind='barh')
plt.title('微博发布量Top10用户')
plt.show()
八、完整项目结构建议
weibo-spider/
├── config.py # 配置文件
├── spiders/ # 爬虫核心代码
│ ├── __init__.py
│ ├── hot_search.py # 热搜榜爬虫
│ ├── weibo_api.py # API接口爬虫
│ └── comments.py # 评论爬虫
├── utils/ # 工具函数
│ ├── login.py # 登录模块
│ ├── proxy.py # 代理管理
│ └── storage.py # 存储模块
└── main.py # 主程序入口
九、注意事项
频率控制:微博有严格的频率限制,建议设置3秒以上的请求间隔
验证码处理:频繁访问会触发验证码,需准备打码平台接口
数据清洗:微博正文包含HTML标签和表情符号,需要特殊处理
更新维护:微博前端结构经常变动,爬虫需要定期更新
十、结语
本文从基础到进阶讲解了微博数据爬取的多种方法,涵盖了网页解析、API调用、数据存储等关键环节。实际开发中,建议结合具体需求选择合适的方案,并始终遵守相关法律法规。
最后:
希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力!相信自己!
文末福利
最后这里免费分享给大家一份Python全套学习资料,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。
包含编程资料、学习路线图、源代码、软件安装包等!【点击领取!】
① Python所有方向的学习路线图,清楚各个方向要学什么东西
② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例,学习不再是只会理论
④ 华为出品独家Python漫画教程,手机也能学习