爬取豆瓣电影top100 使用pyquery

最新推荐文章于 2024-06-26 10:00:00 发布

原创最新推荐文章于 2024-06-26 10:00:00 发布 · 767 阅读

1 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个使用Python进行网页爬取的小型实战案例，通过解析豆瓣Top250电影页面获取电影名称、导演、评分等信息，并将数据存储为文本文件。该示例展示了如何利用PyQuery库来抓取和处理网页内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

练手

from pyquery import PyQuery as pq
import json
for num in range(11):
    doc = pq(url='https://movie.douban.com/top250?start=%d&filter=' % (num*25))
    ol = doc.find('ol')
    a = ol.find('li').items()
    num = 0
    for t in a:
        film = {
            'title': " ".join(t(".title").text().split()),
            'directors': " ".join(t.find('p:first-child').text().split()),
            'comment': " ".join(t(".inq").text().split()),
            'score': " ".join(t(".rating_num").text().split())
        }
        print(film)
        with open('douban.txt', 'a', encoding='utf-8') as f:
            f.write(json.dumps(film, ensure_ascii=False) + '\n')