Task4 学习xpath

最新推荐文章于 2024-12-11 11:15:11 发布

爱吃文字的鲸鱼

最新推荐文章于 2024-12-11 11:15:11 发布

阅读量103

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/weixin_43989326/article/details/88133710

爬虫专栏收录该内容

7 篇文章

订阅专栏

本文分享了一种使用Python的lxml库结合XPath表达式抓取丁香园论坛帖子评论的方法。通过定义请求头和目标URL，获取网页源代码，并解析为HTML树，进而提取出用户的ID和评论内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：学习xpath，使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。

from lxml import etree
import requests

def main():
url='http://www.dxy.cn/bbs/thread/626626'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36'}
html=get_html(url,headers)
get_A(html)

def get_html(url,headers):
response=requests.get(url,headers=headers)
return response.text

def get_A(html):
tree=etree.HTML(html)
ids=tree.xpath('//*/table/tbody/tr/td/div/a/text()')
comments=tree.xpath('//*/table/tbody/tr/td/div/div/table/tbody/tr/td/text()')

for id,comment in zip(ids,comments):
print('用户：'+id,'评价:'+comment.strip())

if __name__=='__main__':
main()