第一步,安装 requests-html
- 升级 pip
pip install --upgrade pip
- 升级 urllib3
sudo python3 -m pip install urllib3 --upgrade
- 安装 requests-html
sudo python3 -m pip install requests-html
第 1.1 步,给项目,安装 requests-html
- 修改 setup.py 文件,
添加
install_requires=[
'requests-html',
],
- 修改 launch.json
添加
"pythonPath": "/usr/bin/python3"
- 命令行,安装
sudo python3 -m setup install
- python 文件中,使用
from requests_html import HTMLSession
第 2 步,继续使用 youtube - dl
- 新建一个信息提取类
class XxxIE(InfoExtractor):

本文介绍了如何使用Python的requests-html库进行网站爬取,并结合youtube-dl进行信息提取。首先,升级pip和urllib3,安装requests-html,接着在setup.py和launch.json中配置。然后,创建信息提取类,利用正则表达式匹配,通过YoutubeDL.py和extractor文件夹中的common.py协同工作,最后在extractors.py的XxxIE类中完成下载和爬取任务。
最低0.47元/天 解锁文章
928

被折叠的 条评论
为什么被折叠?



