python 爬取网站的博客目录

最新推荐文章于 2024-07-21 22:35:51 发布

原创

最新推荐文章于 2024-07-21 22:35:51 发布 · 333 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了如何使用Python的requests-html库进行网站爬取，并结合youtube-dl进行信息提取。首先，升级pip和urllib3，安装requests-html，接着在setup.py和launch.json中配置。然后，创建信息提取类，利用正则表达式匹配，通过YoutubeDL.py和extractor文件夹中的common.py协同工作，最后在extractors.py的XxxIE类中完成下载和爬取任务。

第一步，安装 requests-html

升级 pip

pip install --upgrade pip

升级 urllib3

sudo python3 -m pip install   urllib3   --upgrade

安装 requests-html

 sudo python3 -m pip install requests-html

第 1.1 步，给项目，安装 requests-html

修改 setup.py 文件,

添加

install_requires=[
          'requests-html',
      ],

修改 launch.json
添加

 "pythonPath": "/usr/bin/python3"

命令行，安装

sudo python3 -m   setup install

python 文件中，使用

from requests_html import HTMLSession

第 2 步，继续使用 youtube - dl

新建一个信息提取类

 class XxxIE(InfoExtractor):

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。