Python
Word_One12580
很高兴你能来,不遗憾你走开!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3使用xpath爬取百度文库PPT文档
Python3通过xpath爬取百度文库上的PPT文档准备工作源代码 准备工作 具体的准备工作可参考笔者的另一篇博客:Python3使用xpath爬原创力文档,两者原理相同。 1.首先,随便进入百度文库的一篇PPT文档(记得一定要点开记得阅读,加载出所有画面,才能爬取完整文档)。 2.接着,进入网页源代码,同样找出src的地址。然后,根据个人喜好复制指定部分的网页源码(但一定要包含下载内容)到TXT文件中。 3现在,我们就可以开始爬取了。 源代码 """ 爬取百度文库上的PPT文档 """ impor原创 2020-09-03 16:32:07 · 1897 阅读 · 0 评论 -
Python3使用xpath爬原创力文档
Python3使用xpath爬原创力文档准备工作源代码 准备工作 首先,我们进入原创力文档官网,随便点击一篇pdf文章,进入如下界面: 然后点击“好的,开始阅读”进入全屏界面。接着,按“F12”进入开发者工具;点击开发者界面左上角的箭头符号,选择第一页,开发者工具界面则会定位相应的HTML标签处;定位的光标处中src中的“//view-cache.book118.com/view10/M00/1A/32/wKh2Dl9Df5SAcs8-AADV0nCN1hY314.png”则是我们后续下载需要的URL地址原创 2020-09-03 16:32:22 · 4419 阅读 · 5 评论
分享