各位 C 站的爬虫爱好者,今天咱们要采集的目标站点是 原神官网
,核心目标数据为原神角色图,角色大头贴,角色昵称,角色配音文件。
待爬取页面分析
本次爬取的页面为:https://ys.mihoyo.com/main/character/mondstadt
,其中 mondstadt
可以替换为 liyue
,inazuma
。
目标页面的列表页数据呈现如下图所示,数据量级不是很大。

进一步提取目标数据:
- 所有的数据都在
li
标签中;
- 其中
li
数据分为两部分,大图与音频在一个 li
标签中,大头贴与角色昵称在第二个 li
标签中,具体 DOM 结构如下所示:

- 最重要的音频下载地址如下图所示: