
爬虫
文章平均质量分 79
wong_faye
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[Python笔记] 读取EXCEL中的网页链接,打开并截图
**大致思路:**用Pandas读取EXCEL中的数据,将链接存放入列表中,再用Selenium打开并截图,保存到data文件夹中。文件结构EXCEL文件中的内容代码from selenium import webdriverimport timeimport pandas as pddf = pd.read_excel("urls.xlsx", header=None)urls = df[0].tolist()for i in range(len(urls)): dri原创 2020-11-21 19:33:49 · 2382 阅读 · 2 评论 -
[爬虫笔记04] Selenium爬取淘宝商品
1.爬取分析打开淘宝网首页,我们需要在搜索框输入商品名称,然后点击搜索按钮提交。打开浏览器开发者工具,找到输入框和提交按钮。输入框的id为 q,提交按钮我们使用css选择器,路径为 #J_TSearchForm > div.search-button > button。在搜索框输入“美食”,点击搜索按钮,就会跳到商品目录界面。我们需要获取商品的总页数。使用css选择器...原创 2020-04-26 23:07:34 · 1731 阅读 · 0 评论 -
[爬虫笔记03] XPath、BeautifulSoup、PyQuery解析西刺代理
1.爬取分析打开西刺代理,可以看到代理列表。打开浏览器开发者工具,我们要提取IP地址、端口和类型。2.代码实现直接上代码,需要注意的是第一个< tr >标签是表头,解析时需要跳过。import csvimport timeimport requestsfrom lxml import etreefrom bs4 import BeautifulSoupfrom ...原创 2020-04-26 21:44:04 · 268 阅读 · 1 评论 -
[爬虫笔记02] Scrapy爬取阳光问政平台
1.爬取分析打开阳光问政平台的最新问政板块,可以看到问政问题列表。打开浏览器开发者工具,每个问题的内容就放在< li >标签中,我们要提取span里的内容。将网页滑到最下面,可以看到翻页条,我们要提取下一页的链接进行翻页。< a >标签中的链接即为下一页的链接。点击其中一个问题的链接,打开详情页。我们要提取< pre >标签中的内容。爬...原创 2020-04-26 20:57:32 · 1023 阅读 · 0 评论 -
[爬虫笔记01] Ajax爬取今日头条文章
1.爬取分析我们首先打开今日头条,搜索“罗志祥”打开浏览器的开发者工具,红色框中就是我们请求到的数据将搜索界面的滚动条滑到底,在开发者工具中就可以看到所有请求到的数据,加上前面的一条,一共是7条数据。同时还发现每条数据的偏移量offset为20,因此我们在构造链接请求数据时,只需要改变offset即可。点开第一条数据,可以看到请求链接的格式,后面我们需要构造参数来生成链接。为了保...原创 2020-04-26 15:34:11 · 2362 阅读 · 6 评论