Python爬虫实战(二):爬取天涯帖子(只看楼主)

悦来客栈的老板

于 2017-09-04 12:52:11 发布

阅读量3.4w

点赞数 1

分类专栏： Python，爬虫文章标签： python

本文链接：https://blog.youkuaiyun.com/qq523176585/article/details/77836244

版权

Python，爬虫专栏收录该内容

57 篇文章

订阅专栏

本文分享了一个使用Python爬取天涯论坛指定帖子的示例代码。该程序通过requests库获取网页内容，并利用BeautifulSoup进行解析，提取出了作者信息及帖子正文。代码适用于初学者实践网页爬取技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先上代码

#coding=utf-8
import requests
from bs4 import Tag
from bs4 import BeautifulSoup


def getHtml(url):
    page = requests.get(url)
    html =page.text
    return html

def getText(html):
    get_text = Tag.get_text
    soup = BeautifulSoup(html, 'html.parser')
    
    author_info = soup.find_all('div', class_='atl-info')
    listauthor  = [x.get_text() for x in author_info]
        
    list_info = soup.find_all('div', class_='bbs-content')
    listtext  = [x.get_text() for x in list_info]

    global i
    if i > 1:
        listtext = [""] + listtext
    
    for x in range(len(listauthor)):
        if "楼主" in listauthor[x]:
            print (listtext[x].strip())
            
if __name__=='__main__':
    for i in range(1,6):
        url  = ("http://bbs.tianya.cn/post-feeling-4286798-%s.shtml" % str(i))
        html = getHtml(url)
        getText(html)

刚学Python不到一个月，代码写的有点乱，以后优化。