爬虫之天涯论坛

最新推荐文章于 2025-10-10 11:14:14 发布

原创

最新推荐文章于 2025-10-10 11:14:14 发布 · 5.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了如何使用Python和正则表达式实现爬虫，以获取天涯论坛中特定关键字搜索结果的所有帖子的楼主及回帖者ID。通过str.find()和re.findall()函数进行数据提取，并探讨了优化方案，包括引入多线程提高爬取效率。

爬虫之天涯论坛

需求

获取天涯论坛上某个关键字搜索出来的所有页面里面的每个帖子的楼主ID和回帖者的ID

解决方法

Python+正则表达式

re.findall(pattern, string[, flags])
搜索string，以列表形式返回全部能匹配的子串。

str.find(str, beg=0, end=len(string))
如果包含子字符串返回开始的索引值，否则返回-1

import requests
import re
import time

# create time: 20170721
# language: python3.4



# 打开保存到本地文件
with open('.\data\data20170803.txt','w') as file:

    # 爬取的页码范围
    for page in range(75):

        # 拼凑出某一页的URL
        url = 'http://search.tianya.cn/bbs?q=粮食&pn=' + str(page + 1)

        # 获取某一面的内容
        content = requests.get(url).content.decode('utf-8')

        # 定位到需要的一块区域
        start = content.find(r'<div class="searchList