
爬虫
java_prinln
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫入门到进阶(一)
爬虫概念和协议 爬虫概述 1.1 爬虫概念 爬虫, 又称网页蜘蛛或网络机器人. 爬虫是 模拟人操作客户端(浏览器, APP) 向服务器发起网络请求 抓取数据的自动化程序或脚本. (*****) 说明: 1.模拟: 用爬虫程序伪装出人的行为, 避免被服务识别为爬虫程序 2.客户端: 浏览器, APP都可以实现人与服务器之间的交互行为, 应用客户端从服务器获取数据 3.自动化: 数据量较小时可以人工获取数据, 但往往在公司中爬取的数据量在百万条, 千万条级别的, 所以要程序自动化获取数据. 1.2 爬虫原创 2021-12-22 00:01:28 · 160 阅读 · 0 评论 -
爬虫入门到进阶(七)
scrapy初识 文章目录scrapy初识@[toc]1.scrapy安装与环境依赖2.创建项目3.项目目录介绍4.scrapy框架介绍: 5大核心组件与数据流向6.scrapy爬取校花网人名与图片下载链接 1.scrapy安装与环境依赖 # 1.在安装scrapy前需要安装好相应的依赖库, 再安装scrapy, 具体安装步骤如下: (1).安装lxml库: pip install lxml (2).安装wheel: pip install wheel (3).安装twisted:原创 2022-05-09 16:21:19 · 146 阅读 · 0 评论 -
爬虫入门到进阶(六)
Selenium 与 PhantomJS 1.selenium介绍 介绍: 1.selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点 击网页中的元素, 实现鼠标滚动等操作. 2.它支持多款浏览器, 如谷歌浏览器, 火狐浏览器等等, 当然也支持无头浏览器. 目的: 在爬取数据的过程中, 经常遇到动态数据加载, 一般动态数据加载有两种, 一种通过ajax请求加载数据, 另 一种通过js代码加载动态数据. selenium可以模拟人操作真实浏览器, 获取加原创 2022-05-09 00:05:40 · 102 阅读 · 0 评论 -
爬虫入门到进阶(五)
BeautifulSoup库使用 xpath: 数据解析库, 安装pip install lxml pip install lxml==4.3.3 xpath编码流程: 1).from lxml import etree 2).实例化一个etree对象: tree = etree.HTML(res.text) 3).tag_tagatrribute = tree.xpath(‘xpath表达式’) xpath基础语法: nodeName:节点名定位 ./: 当前节点的直接子节点 .//: 当前节原创 2022-05-08 23:15:28 · 121 阅读 · 0 评论 -
爬虫入门到进阶(四)
xpath解析库 1.xpath解析库 Xpath解析库介绍: 数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错. 网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目 标数据时可以根据网页层次关系定位标签, 再获取标签的文本或属性. xpath解析库解析数据原理: 根据网页DOM树定位节点标签 获取节点标签的正文文本或属性值 # xpath安装, 初体验 --原创 2022-05-08 22:56:09 · 107 阅读 · 0 评论 -
爬虫入门到进阶(三)
requests & urllib简单介绍 一. requests用法 1.1 文件上传功能 import requests f = open('favicon.ico', 'rb') files = { 'file': f } r = requests.post('http://httpbin.org/post', files=files) print(res.text) 2.2 cookie 处理 1.headers添加cookie键值对 --> Session 2.Req原创 2022-04-14 23:58:07 · 183 阅读 · 0 评论 -
爬虫入门到进阶(二)
爬虫基本原理 1. 请求过程与网页基础 -URL 作用是用于定位服务器资源的, 其结构如下: 1.1 URL 介绍 1.2 HTTP 请求过程 1.3 请求 1.4 响应 1.5 网页基础 第一个请求 2.1 爬虫工作流 2.2 抓包技能 2.3 爬虫DemoOne requests 模块基本使用 ...原创 2022-04-11 10:55:52 · 211 阅读 · 0 评论