
爬虫
文章平均质量分 92
我吐了。。。
这个作者很懒,什么都没留下…
展开
-
爬虫面试题(一)
1、 什么是爬虫?【考核知识点:爬虫概念】爬虫又叫网页蜘蛛,是模拟人操作客户端向服务器发起请求,抓取数据的自动化程序或脚本。2、 爬虫的分类,并解释其概念?【考核知识点:爬虫分类】爬虫根据其作用及服务的主体不同可分为两类: 通用爬虫 、聚焦爬虫通用爬虫是用来获取数据为搜索引擎 提供检索服务的爬虫程序, 所以搜索引擎背后都有一个强大的通用爬虫.聚焦爬虫是针对特定领域抓取特定数据的爬虫程序.3、 robots是什么?【考核知识点:robots概念】obots协议是规定一个网站不允许哪些爬虫爬取哪原创 2020-09-11 20:13:52 · 6665 阅读 · 0 评论 -
无头浏览器使用
PhantomJS下载及配置环境变量- 下载, 直接解压: https://phantomjs.org/download.html- 将解压文件的bin目录添加至环境变量谷歌无头浏览器from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chr原创 2020-09-09 11:45:56 · 238 阅读 · 0 评论 -
selenium安装与配置与操作
selenium安装与配置与操作selenium是一个web端自动化测试框架,可以通过代码来控制浏览器,比如打开关闭,点击等行为作用:帮助抓取动态加载的数据,避免反爬安装:1.Chrome浏览器2.selenium框架:pip install selenium3.驱动程序:下载 http://npm.taobao.org/mirrors/chromedriver/ 查看浏览器版本 选择对应的版本 编码流程: #首先需要将下载的chromedriver.exe放到代码文件夹原创 2020-09-09 09:09:24 · 339 阅读 · 0 评论 -
xpath 语法
lxml库 从响应数据中抽取出目标数据的过程,就叫做数据解析 数据解析: re,xpath,BS4,Pyquery DOM树与xpath解析原理 xpath解析原理:根据DOM节点的结构关系,进行定位xpath基本语法.:当前节点/:根节点//:代表任意位置.//:从当前节点向下的任意位置匹配nodename:**节点名**定位nodename[@attribute='value']:根据节点的属性进行定位@attribue:获取节点的属性值,比如获取a标签的`h原创 2020-09-08 14:07:19 · 210 阅读 · 0 评论 -
爬虫 requests高阶应用
requests高阶应用文件处理import requests#打开文件,注意要以rb形式打开f = open('chn.jpg','rb')files = { 'file':f}res = requests.post(url='***',files = files)会话维持from requests import Session1.实例化一个对象session = Session()2.urlurl = '*****'3.session.get()或者sessio原创 2020-09-06 20:14:35 · 281 阅读 · 0 评论 -
爬虫理论
目录文章目录目录@[toc]爬虫的概念B/S C/S 架构通用爬虫聚焦爬虫OSI七层模型TCP/IP五层模型HTTP与HTTPS协议TCP和UDPARP协议服务器创建的默认端口ARP协议服务器创建的默认端口爬虫的概念爬虫又称网页蜘蛛或者网页机器人模拟人操作客户端,向服务器发起网络请求,抓取数据的自动化程序和脚本爬虫分为聚焦爬虫和通用爬虫自动化,数据量较小时可以人工获取数据,但往往在公司中爬取的量都在百万级千万级,所以要程序自动化获取数据B/S C/S 架构B/S架构:Browser/.原创 2020-09-03 10:46:27 · 333 阅读 · 0 评论