用python+BeautifulSoup爬百度知道的答案

最新推荐文章于 2024-03-23 20:04:07 发布

原创

最新推荐文章于 2024-03-23 20:04:07 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #BeautifulSoup

为了获取所需资料，使用Python和BeautifulSoup编写了一个爬虫，爬取了百度知道的前N页答案。由于百度知道的回答质量参差不齐，所以数据仅供参考。注意，更改url_root和file_name可适应不同需求。但需谨慎，防止IP被封，可以通过添加延时（sleep）等方法降低爬取频率，避免被网站视为攻击行为。

因需要一些资料，就写了个爬虫爬取百度知道前N页的所有答案
不过鉴于百度知道的回答质量（你懂得。。。。），爬取的内容仅供参考

替换一下url_root和file_name基本就能通用了
注：每个网站使用的标签不一样，代码仅适用于百度知道，其他网站自行修改
在这里插入图片描述

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import lxml


url_root = 'https://zhidao.baidu.com/search?word=%C0%F8%D6%BE%B6%CC%BE%E4&ie=gbk&site=-1&sites=0&date=0&pn=0'
file_name = 'C:\\Users\\username\\Desktop\\sort_statement.txt'


# 获取下一页的url
def get_next(url):
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text, 'lxml')
    source = soup.