爬虫
文章平均质量分 71
Eshel_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spider10多线程
1. b站数据爬虫from selenium.webdriver import Chrome, ChromeOptionsimport timefrom bs4 import BeautifulSoupfrom re import searchfrom concurrent.futures import ThreadPoolExecutorimport csvfrom queue import Queueoptions = ChromeOptions()options.add_exper原创 2022-05-20 19:06:43 · 422 阅读 · 0 评论 -
Spider09队列和线程池
1. 作业豆瓣电影import requestsfrom threading import Threadimport csvfrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}de原创 2022-05-19 16:51:39 · 255 阅读 · 0 评论 -
Spider08多线程基础
1. 爬虫流程获取网页数据 --> 解析数据 --> 保存数据。1)第一步:确定目标网页;2)第二步:找数据接口: a. 有数据接口 --> 直接使用requests对数据接口发送请求 -> 网页数据获取完成 b. 没有数据接口 --> 第三步3)第三步:用requests直接对网页发送请求(可能涉及到添加user-agent或者添加cookie):a. 请求结果中有目标数据 --> 网页数据获取完成b. 请求结果中没有目标数据 --> 第原创 2022-05-18 22:04:16 · 350 阅读 · 0 评论 -
Spider07selenium进阶登录反爬
1. 选项卡切换from selenium.webdriver import Chromefrom selenium.webdriver.common.keys import Keysimport timefrom bs4 import BeautifulSoup1.1 创建浏览器对象b = Chrome()1.2 打开网页b.get('https://www.cnki.net/')1.3 搜索论文search = b.find_element_by_id('txt_SearchT原创 2022-05-17 20:59:23 · 627 阅读 · 0 评论 -
Spider06selenium
1. selenium打开网页导入所需包from selenium.webdriver import Chromeimport timeimport refrom bs4 import BeautifulSoupfrom lxml import etree1.1 创建浏览器对象b = Chrome()1.2 打开网页打开网页(需要爬取网页数据的网页)。b.get('https://movie.douban.com/top250')# 等待time.sleep(1)1.3原创 2022-05-17 20:57:43 · 270 阅读 · 0 评论 -
Spider05
1. Xpath解析1.1 XPthXPth:是一门在XML文档中查找内容的语言。XML文档:存储和传输数据的。 --> json数据。1.2 json和XML区别1)json数据对机器友好型语言。2)XML对人类友好型语言。1.3 XPath根据什么在XML查找内容1)XML文档中有很多节点。例如:根节点(文档节点)、属性节点、内容节点、元素节点等。2)xml文档是树形结构。xml_str = """<supermarket> --> 根节点(文档节点)原创 2022-05-17 20:50:54 · 218 阅读 · 0 评论 -
Spider04
1. BeautifulSoup4使用from bs4 import BeautifulSouphtml = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p c原创 2022-05-17 20:33:42 · 263 阅读 · 0 评论 -
Spider03
1. html文字标签1)标题标签:自带加粗、自带换行(h1~h6)<h1>我是一级标签</h1><h2>我是二级标签</h2><h3>我是三级标签</h3><h4>我是四级标签</h4><h5>我是五级标签</h5><h6>我是六级标签</h6>2)段落标签:p:自带换行<p>大熊猫(学名:Ailuropoda melanoleuc原创 2022-05-16 22:30:18 · 294 阅读 · 0 评论
分享