
爬虫
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
Python反爬手段之User-Agent池
User-Agent即用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。反爬原理:一些网站常常通过判断UA来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装UA可以绕过检测。UA:【标准格式】:浏览器标识 (操作系统标识; 加...原创 2019-08-15 18:38:07 · 1926 阅读 · 0 评论 -
Python实战异步爬虫(协程)+分布式爬虫(多进程)
引言:我们在写爬虫时常会遇到这样的问题,当需要爬取多个URL时,写一个普通的基于requests库的爬虫程序爬取时间会很长。因为是顺序请求网页的,而网页请求和获得响应过程比较耗费时间,程序不得不等待获得当前网页响应后才能进行下一个URL的爬取,使得总耗时较多。对于这样的多任务,可以使用基于多进程(multiprocessing)和基于Asyncio库的异步(协程)爬虫增强并发性,加速爬虫。T...原创 2019-01-24 21:32:32 · 23377 阅读 · 30 评论 -
XPath常用语法总结及应用
一、XPath是什么?XPath是XML路径语言(XML Path Language),其中HTML又是XML的子集。XPath使用路径表达式来选取XML文档中的节点或节点集。二、XPath常用语法类别表达式描述层级/从根结点选取(当前节点的下一级)//从当前节点选取任意子孙节点(跨级)属性@属性访问函数text()获取节点文本内容...原创 2019-08-10 14:53:52 · 2616 阅读 · 0 评论 -
Python用xpath爬取数据返回空列表解决
笔者以爬取2018年AAAI人工智能顶会论文元数据为例。其中包括标题(title)和摘要(abstract)等字段①tbody问题URL:2018AAAI的第一篇论文元数据页面 页面如下:笔者通过谷歌浏览器选取上图红框内容的xpath如下:from lxml import etreeimport requestsurl = 'https://aaai.org/ocs/index....原创 2018-12-08 16:20:23 · 43838 阅读 · 13 评论 -
python+selenium批量爬取IEEExplore论文
原文出处:https://blog.youkuaiyun.com/qq_25072387/article/details/78588173一、环境搭建首先下载安装selenium包,推荐直接使用pip之后还要下载对应浏览器的驱动(driver),这里使用的是chrome浏览器,注意驱动与浏览器的版本要相对应。下载的驱动直接复制到python和chrome的安装目录下。python+selenium的...转载 2018-12-06 19:34:56 · 1510 阅读 · 0 评论 -
浅谈Scrapy框架之Items用途
初次使用item时,不禁发出疑问,为什么scrapy框架要设计item这个东西,python中不是有dict可以做到数据的传递和存储么?经过查询后,具体总结如下:爬虫爬取本质是什么?主要目标是从非结构化来源(通常是网页)提取并整合成自己预期的结构化数据。Scrapy中的Items是什么?Item对象是用于收集所抓取的数据的简单容器。它们提供了一个类似python字典的API,具有用于声...原创 2019-08-15 20:26:59 · 2407 阅读 · 0 评论 -
Python数据清洗笔记
场景一:仅仅需要清洗去除头尾的字符的字符串【方法】:使用strip()方法。【案例】:>>> str = '\n\xa0\xa0\xa0\xa0\t 较为干净 的数据 \t\n\xa0\xa0\xa0\xa0 '>>> str.strip('\xa0 \n\t') // 去除头尾包含\xa0,空格,\n或\t字符的字符串'较为干净 的数...原创 2019-08-16 17:50:08 · 422 阅读 · 0 评论 -
Scrapy爬虫框架的原理与实战[阳光政务爬虫项目]
引言:Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。一、Scrapy架构的来源与详解二、Scrapy模块的安装与初始配置2.1 安装Scrapy$ pip install scrapy2.2 创建Scrapy项目$ scrapy startproj...原创 2019-08-16 23:02:53 · 819 阅读 · 0 评论