【友望数据】视频号2024年度榜单来啦!谁是带货王?

视频号年度榜单来啦!

友望数据选取:直播带货达人榜、直播销量达人榜、品牌销售榜、商品销量榜、作品平均推荐数达人榜、作品平均喜欢数达人榜共6个榜单 Top10 数据

哪些品牌/达人上榜了?!视频号热销商品是什么?哪些达人作品最受用户喜欢?让我们一来看看!

榜单内容说明:

1.数据来源:本次榜单数据源自公开数据,非视频号官方观点

2.数据指标:本次榜单各项指数均是经过处理后的数值

3.本次榜单时间周期:2024.01.01——2024.12.26

### 编写爬虫程序抓取猫眼2024年度榜单数据 为了成功抓取猫眼2024年度榜单数据,可以采用`Scrapy`框架或`selenium`库。以下是两种不同的方法。 #### 使用 Scrapy 框架抓取数据 Scrapy 是一个强大的 Python 爬虫框架,适合处理复杂的网页抓取任务。下面是一个基本的 Scrapy Spider 实现: ```python import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class MaoyanTopMoviesSpider(CrawlSpider): name = 'maoyan_top_movies' allowed_domains = ['maoyan.com'] start_urls = [ f'https://maoyan.com/board/4?offset={i * 10}' for i in range(10)] # 假设共有10页 rules = ( Rule(LinkExtractor(restrict_xpaths='//p[@class="name"]/a'), callback='parse_movie', follow=True), ) def parse_movie(self, response): item = {} item['title'] = response.xpath('//h1/text()').get() item['year'] = response.xpath('//li[contains(text(), "年")]/text()').re_first(r'\d{4}') yield item ``` 此代码片段定义了一个名为 `MaoyanTopMoviesSpider` 的类继承自 `CrawlSpider` 并设置了起始 URL 和提取规则[^1]。 #### 利用 Selenium 抓取动态加载的内容 对于某些网站来说,内容可能是通过 JavaScript 动态渲染出来的,在这种情况下使用传统的 HTTP 请求可能无法获得完整的 HTML 文档。此时可以选择使用浏览器自动化工具如 selenium 来模拟真实用户的操作行为。 安装必要的依赖包之后,创建一个新的脚本来启动 Chrome 浏览器实例并访问目标页面: ```python from selenium import webdriver from selenium.webdriver.common.by import By from time import sleep options = webdriver.ChromeOptions() driver = webdriver.Chrome(options=options) try: driver.get('https://maoyan.com/films') while True: movies = driver.find_elements(By.XPATH, '//div[@class="movie-item-info"]') for movie in movies[:10]: # 只取前十个作为例子 title_element = movie.find_element(By.TAG_NAME, 'a') print(f'Title: {title_element.text}') next_button = driver.find_element(By.CSS_SELECTOR, '.btn-next') if not next_button.is_enabled(): break next_button.click() sleep(3) # 给予足够的时间让新页面加载完成 finally: driver.quit() ``` 这段代码展示了如何利用Selenium打开猫眼首页,并尝试翻阅多页获取更多电影条目信息[^2]。 需要注意的是,实际应用时应当遵循各站点的服务条款以及法律法规的要求,确保合法合规地收集公开可得的信息资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值