
web_crawler学习
牧阳MuYoung
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫-7(Scrapy模拟登陆实战)
Scrapy模拟登陆实战# Scrapy模拟登陆实战'''使用Scrapy代替人去登陆一些网站,登陆之后可以爬取深层页面。'''原创 2020-04-13 22:16:21 · 254 阅读 · 0 评论 -
Python网络爬虫-6
XPath基础# XPath表达式'''XPath与正则对比:1. XPath效率高2. 正则功能强大3. 一般优先选择XPath,但是XPath解决不了的问题,则用正则解决# 简单说明快速使用,更为完善的版本以后补上/ 逐层提取text() 提取标签下面的文本//标签名A 提取所有名为A的标签//标签名A[@属性名B='属性值b'] 提取属性B值为b的标签@属性名 取某...原创 2020-03-25 14:42:30 · 515 阅读 · 0 评论 -
Python网络爬虫-bugs记录
1. Scrapy运行报错:ModuleNotFoundError: No module named 'dang.dang’运行爬虫文件报错:from dangdang.dangdang.items import DangdangItemModuleNotFoundError: No module named 'dangdang.dangdang'解决问题注意:引入items的路径。i...原创 2020-03-23 19:06:01 · 291 阅读 · 0 评论 -
Python网络爬虫-5
认识Scrapy框架# 概述'''开发Python爬虫方式很多,从程序的复杂程度角度说,可分为:爬虫项目和爬虫文件Python的urllib模块一般用于写爬虫文件,大型项目为了提高开发效率一般用Scrapy框架。'''# Scrapy框架安装难点解决技巧推荐安装步骤常见问题解决...原创 2020-03-23 11:45:38 · 456 阅读 · 0 评论 -
Python网络爬虫-4
微信爬虫实战# 微信爬虫'''搜狗微信爬虫参考学习搜狗反扒机制做的很好,所以容易触发验证码审核# 封装的用户代理和IP代理方法,方法参数为访问链接,方法内部最多循环5次访问,IP和代理或网站还不能成功访问则停止def ua_ip(myurl): import urllib.request import random uapools = [ "M...原创 2020-03-21 17:15:11 · 872 阅读 · 0 评论 -
Python网络爬虫-抓包工具篇(Charles安装证书抓取HTTPS)
Mac 端第一步 配置HTTP代理 点击 Charles菜单下 Proxy-> Proxy Setting ,这步与抓取HTTP请求是一样的:选择在8888端口上监听,然后确定。选了SOCKS proxy,还能截获到浏览器的http访问请求。第二步 安装Mac端根证书:点击 Charles菜单下 Help -> SSL Proxying -> Install Cha...原创 2020-03-20 23:15:40 · 1107 阅读 · 0 评论 -
Python网络爬虫-3
用户代理池构建用户代理池概述用户代理池构建实战# 用户代理池概述'''所谓用户代理池,即将不用的用户代理组建成为一个池子,随后随机调用。'''# 用户代理池构建实战'''import urllib.requestimport reimport randomuapools = [ "Mozilla/5.0(Macintosh;U;IntelMacOSX10_6...原创 2020-03-20 14:09:24 · 175 阅读 · 0 评论 -
Python网络爬虫-2
Urllib库实战urllib基础超时设置自动模拟HTTP请求# urllib基础'''urlretrieve(网址,本地文件存储地址): 直接下载网页到本地urlcleanup():清除缓存或者内存info(): 说明当前爬取页面相应信息getcode(): 返回网页爬取的状态码geturl(): 获取当前爬取页面的URL地址import urllib.reques...原创 2020-03-14 16:11:00 · 318 阅读 · 0 评论 -
Python网络爬虫-1
网络爬虫初识如何查看模块功能以及如何安装模块网络爬虫是什么?网络爬虫能做什么事情?# 如何查看模块功能以及如何安装模块'''当新接触到一个模块的时候,如何了解这个模块的功能。主要方法有:1.help()--输入对应的模块名2.阅读该模块的文档,一些大型的模块都有,比如scrapy3.查看模块的源代码,分析各方法的作用,也可以从名字进行相应的分析'''# 网络爬虫是什么?...原创 2020-03-17 21:59:57 · 762 阅读 · 0 评论 -
Python语法基础快速学习-3
Python函数详解认识Python函数局部变量与全局变量函数的定义和调用函数参数使用详解# 认识Python函数'''函数的本质就是功能的封装。使用函数可以提高编程的效率与程序的可读性。'''# 局部变量与全局变量'''变量是有生效范围的,这个生效范围我们成为作用域。作用域从变量出现开始到程序的最末的变量叫做全局变量;作用域只在局部的变量叫做局部变量。i = ...原创 2020-03-14 17:59:13 · 241 阅读 · 0 评论 -
Python语法基础快速学习-2
目 录三种控制流概述if语句while语句for语句中断结构输出乘法口诀# 三种控制流概述'''程序执行流程我们叫作程序的控制流,Python中有3种基本控制流:1.顺序结构2.条件分支结构3.循环结构'''# if语句'''if语句是一种条件分支结构语句#a = 11#a = 8#a = 9a = 10b = 1if(a > 10): ...原创 2020-03-12 17:24:16 · 130 阅读 · 0 评论 -
Python语法基础快速学习-1
目录输出注释标识符变量数据类型运算符缩进# 输出print("hello python!")# 注释1.#注释法(单行)2.三引号注释法(多行),单引号、双引号都可以# print("hello python!")'''print("hello python!")print("hello python!")'''# 标识符'''标识符是标注某个东西的...原创 2020-03-10 09:30:55 · 234 阅读 · 1 评论