爬虫前行中（datawhale task4）

最新推荐文章于 2026-01-04 23:35:27 发布

原创最新推荐文章于 2026-01-04 23:35:27 发布 · 275 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #实战

总结同时被 3 个专栏收录

9 篇文章

订阅专栏

打卡

8 篇文章

订阅专栏

笔记

8 篇文章

订阅专栏

本文介绍了一种使用Selenium和LXML抓取腾讯新闻网站数据的方法。通过模拟浏览器滚动加载更多内容，解析并提取了新闻标题和链接。适用于学习网络爬虫技术和数据抓取。

腾讯新闻爬取

from selenium import webdriver
from lxml import etree
import time
url = 'https://news.qq.com/'
bro = webdriver.Chrome()
bro.get(url)
for i in range(5):
    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(3)
res = bro.page_source

tree = etree.HTML(res)
lis = tree.xpath('//ul[@class="list"]/li')
for li in lis:
    try: 
        title = li.xpath('./div[@class="detail"]/h3/a/text()')[0]
        url = li.xpath('./div[@class="detail"]/h3/a/@href')[0]
        print(title,url)
    except:
        continue

结果：
在这里插入图片描述