
爬虫
Deam_EXO
愿得一人心,白首不分离
展开
-
爬虫学习笔记--02
一、urllib库转换参数、发送请求from urllib import request,parse params = parse.urlencode(params_dict) # 将字典(或元组——每个元素是包含两个元素的小元组)转换为字符串格式的查询参数 req = request.Request(url,data=params.encode()) # 创建Request对象,封装URL...原创 2018-11-29 22:01:41 · 389 阅读 · 0 评论 -
scrapy学习笔记--01
一、scrapy概述简介:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架应用领域:数据挖掘、数据分析等领域安装方式 :pip install scrapy1.1 常用命令:scrapy -h #查命令创建项目命令:scrapy startproject 项目名称创建爬虫:scrapy genspider 爬虫的名称(唯一标识) 网页的域名...原创 2018-12-02 18:03:55 · 336 阅读 · 0 评论 -
进程与线程笔记--01
一、进程与线程1.1进程进程是每个独立运行着的程序称为一个进程操作系统分配资源的最小单位,有独立的内存空间和系统资源1.2线程(Thread)线程是一个进程内部的一条执行路径(path)进程中执行运算的最小单位,处理器分配给线程、即真正在处理器上运行的是线程1.3进程和线程区别进程有独立的地址空间,一个进程崩溃后,不会对其它进程产生影响,而线程只是一个进程...原创 2018-11-28 10:22:58 · 250 阅读 · 0 评论 -
进程与线程笔记--02
一、进程 正在运行的应用程序就是一个进程。进程是资源分配的基本单元。 每一个进程有一个GIL,在一个进程中,同时只能有一个线程执行(获取到GIL的那个线程)。 在Python中,多线程不能同时在多核CPU上执行,但是多进程可以在多核CPU上运行,多进程 充分利用了多核的资源。1..1 进程的创建方式 方式一: 继承from multiprocessing impo...原创 2018-11-28 10:45:20 · 223 阅读 · 0 评论 -
Xpath的使用
基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径 /AAA 选择根元素AAA <AAA> <BBB/> <CCC/> <BBB/> ...原创 2018-12-01 08:55:41 · 322 阅读 · 0 评论 -
爬虫学习笔记--03
一、xpath的使用基本使用规则见:https://blog.youkuaiyun.com/weixin_42569562/article/details/84670604?from=singlemessage1.1 xpath选择例子:1.选择豆瓣电影top250的电影名称//div[@class=‘hd’]/a/span[1]/text()2.选择图片路径(img标签中的src属性)//div...原创 2018-12-01 10:17:51 · 278 阅读 · 0 评论