Python爬虫实战(二):爬取天涯帖子(只看楼主)

本文分享了一个使用Python爬取天涯论坛指定帖子的示例代码。该程序通过requests库获取网页内容,并利用BeautifulSoup进行解析,提取出了作者信息及帖子正文。代码适用于初学者实践网页爬取技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先上代码


#coding=utf-8
import requests
from bs4 import Tag
from bs4 import BeautifulSoup


def getHtml(url):
    page = requests.get(url)
    html =page.text
    return html

def getText(html):
    get_text = Tag.get_text
    soup = BeautifulSoup(html, 'html.parser')
    
    author_info = soup.find_all('div', class_='atl-info')
    listauthor  = [x.get_text() for x in author_info]
        
    list_info = soup.find_all('div', class_='bbs-content')
    listtext  = [x.get_text() for x in list_info]

    global i
    if i > 1:
        listtext = [""] + listtext
    
    for x in range(len(listauthor)):
        if "楼主" in listauthor[x]:
            print (listtext[x].strip())
            
if __name__=='__main__':
    for i in range(1,6):
        url  = ("http://bbs.tianya.cn/post-feeling-4286798-%s.shtml" % str(i))
        html = getHtml(url)
        getText(html)





  



刚学Python不到一个月,代码写的有点乱,以后优化。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值