
python爬虫
djs123DJS
这个作者很懒,什么都没留下…
展开
-
爬虫杂记1
计算机上面的东西如果你不把它放在硬盘里面,它都是在内存里面,只有这两个硬件可以存储东西,所以爬虫匹配出来的结果如果没有放在硬盘里的,都是在内存 里面。解释工具(匹配)有正则,xapth,bs4,json只能转换成类似字典的数据。免费的代理ip,可用性很差,100个可能也没有一个可以用,并且过期 时间很快。所以一般不用免费的代理。安卓系统和苹果系统都是基于unix或者linux开发的,所以...原创 2018-05-17 17:53:34 · 208 阅读 · 0 评论 -
正则表达式的匹配
详情请看:https://my.oschina.net/u/167671/blog/684878\ 匹配转义的,a[bcd]e 能匹配出abe,ace,ade []里面的是或的意思,只能匹配方括号里面的一个。a[bcd]+e 就能匹配出多个,如abcde 。 换行符在代码里面是看不见的,但是它是存在的| 表示的是或,abdf|abdcf|adand 或。/s 可...转载 2018-10-25 09:59:02 · 1119 阅读 · 0 评论 -
win 10下安装redis
详情请查看:https://blog.youkuaiyun.com/lamp_yang_3533/article/details/52024744 一、Redis的下载地址Redis官方并没有提供Redis的windows安装包,但在github上, 有相关的下载地址,如下:https://github.com/ServiceStack/redis-windows/tree/master/down...转载 2018-10-25 13:28:20 · 923 阅读 · 0 评论 -
Python处理csv文件
详情请参考:https://www.cnblogs.com/yanglang/p/7126660.html Python处理csv文件CSV(Comma-Separated Values)即逗号分隔值,可以用Excel打开查看。由于是纯文本,任何编辑器也都可打开。与Excel文件不同,CSV文件中:值没有类型,所有值都是字符串 不能指定字体颜色等样式 不能指定单元格的宽高,不能...转载 2018-10-24 07:09:34 · 368 阅读 · 0 评论 -
Xpath基础
https://www.bilibili.com/video/av19689660/?p=6 视频的链接Xpath 是一门从html中提取数据的语言:Xpath的语法: 1. '/'是选择节点(标签):' /html/head/meta' :表示的是能够选中html 下的head下的所有的meta 标签 2. ‘//’:能够从任意节点开始选择 ‘//li...原创 2018-11-03 22:08:21 · 3321 阅读 · 0 评论 -
liunx 基础
无论是Windows还是liunx都是操作系统,操作系统的作用都是对资源的管理。liunx是偶数的话就是稳定的版本,奇数的是开发版本,不稳定。 systemctl stop firewalld.service (重启后恢复)systemctl disable firewalld.service (永久关闭)systemctl status firewalld.se...原创 2018-11-09 14:49:39 · 255 阅读 · 0 评论 -
github 使用
先下载一个git在电脑,然后再cmd里面输入下的命令1 git config --global user.name 'pacdm' (在本地配置用户名)2 git config --global user.email '1303417066@qq.com'(配置邮箱)3 git config --global -l (查看配置的信息)4 ...原创 2018-11-17 20:33:31 · 275 阅读 · 0 评论 -
更改Ubuntu默认python版本的两种方法
更改Ubuntu默认python版本的两种方法没找到原文地址,作者写的很实用的方法,赞一个。 当你安装 Debian Linux 时,安装过程有可能同时为你提供多个可用的 Python 版本,因此系统中会存在多个 Python 的可执行二进制文件。一般Ubuntu默认的Python版本都为2.x, 如何改变Python的默认版本呢?下面来一起看看吧。你可以按照以下方法使用 l...转载 2018-11-08 11:13:07 · 3790 阅读 · 0 评论 -
Linux安装Anaconda(unbantu版)
Linux安装Anaconda发布时间:2016-10-17 11:58:03来源:topspeedsnail.com作者:斗大的熊猫Anaconda是用于科学计算的平台,它集成了很多关于Python科学计算的第三方库,可运行在Linux、Windows 和 macOS下。它的功能包括:包管理、环境管理、700+软件包。Anaconda主要由Miniconda和Conda两个组件组成。...转载 2018-11-08 20:34:48 · 933 阅读 · 0 评论 -
使用postman一键生成你的爬虫代码(postman在爬虫中的应用)1
详情请查看:https://zhuanlan.zhihu.com/p/42832499 使用postman ,按照下面的指导,可以查看请求中需要带上那些信息。直接生成代码,把代码复制到编译器使用就可以了。今天介绍一个神器postman,可以一键生成我们的爬虫代码。即能提高我们的开发效率,还能有效的解决我们实际工作中爬虫难题。先来看一段最简单的爬虫代码。import reques...转载 2018-11-18 19:47:18 · 4356 阅读 · 1 评论 -
scrapy总结
异步和同步指的是过程,阻塞和非阻塞指的是状态scrapy中重要的是怎样写xpath来取数据,怎么样处理数据,还有怎样进行数据的保存。创建一个scrapy 项目就是创建了一个scrapy文件夹。还要在 cd 到这个文件夹下面创建爬虫。1 .scrapy startproject mySpiser (创建一个工程的文件)2.scrapy genspider itcast itca...原创 2018-11-16 21:39:36 · 380 阅读 · 0 评论 -
redis连接池理解
详情请查看:https://blog.youkuaiyun.com/HeatDeath/article/details/79450409redis-py使用connection pool来管理对一个redis server的所有连接,避免每次建立、释放连接的开销。默认,每个Redis实例都会维护一个自己的连接池。可以直接建立一个连接池,然后作为参数Redis,这样就可以实现多个Redis实例共享一...转载 2018-11-20 07:38:13 · 928 阅读 · 0 评论 -
scrapy 下载中间件总结
中间件有两种:一种是下载中间件一种是爬虫中间件一般操作的是下载中间件原创 2018-11-17 20:03:35 · 408 阅读 · 0 评论 -
csv文件处理
1.纯文本,使用某个字符集,比如 ASCI,Unicode、 EBCDIC或GB2312(简体中文环境)等2由记录组成(典型的是行条记录);3.每条记录被分符分隔为段(典型分精符有退号、分号或制表符:有时分隔符可以包括可选的空)4.每条记录都有同样的字段序列 import csv#读入csv文件中# def csv_demo1():# with ...原创 2018-11-24 17:32:32 · 537 阅读 · 0 评论 -
前程无忧爬虫实战(通过输入关键字爬取任意职位并自动保存为.csv文本)
#这里只分析主要的思路和要注意的点。有什么不懂的可以评论提问,...原创 2018-11-28 20:04:45 · 4346 阅读 · 9 评论 -
lambda表达式
lambda 简单理解是只有一行代码的函数,简单明了。 f = lambda x :x*x 调用的时候也是f() ,括号里面传参数。lambda 输入参数:输出的结果(表达式结果)。 lambda表达式是一行函数。它们在其他语言中也被称为匿名函数。如果你不想在程序中对一个函数使用两次,你也许会想用lambda表达式,它们和普通的函数完全一样。原型 lambd...原创 2018-12-21 23:48:53 · 438 阅读 · 0 评论 -
scrapy-settings
项目名称BOT_NAME = ''爬虫存储的文件路径SPIDER_MODULES = ['']创建爬虫文件的模板,创建好的爬虫文件会存放在这个目录下NEWSPIDER_MODULE = ''设置ua,模拟浏览器请求USER_AGENT = ''设置是否需要遵守robot协议:默认为TrueROBOTSTXT_OBEY = True/False设置请求的最大并发数...转载 2019-02-28 07:42:43 · 241 阅读 · 0 评论 -
python中if语句的真假判断
说明在python中,if作为条件语句,当if后面的条件参数为真时,则执行后面的语句块,反之跳过,为了深入理解if语句,我们需要知道if语句的真假判断方式。在写爬虫时经常会用到 if:xxx 然后再执行后面的语块,如果返回会的数据为空值列表,空字典等,则不会执行后面的语块。保留原来的变量。如scrapy中判断是否有下一页再发送请求,如果返回的数据为空值,不会执行后面 的语句发送请求...原创 2019-03-02 09:15:58 · 1461 阅读 · 0 评论 -
python读写json文件
详情请查看:https://www.cnblogs.com/bigberg/p/6430095.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C、C++、Java、JavaScript、Perl、Python等)...转载 2018-10-22 10:37:04 · 468 阅读 · 0 评论 -
催大佬正则表达式讲解
正则表达式:有些网页用常用的解析库是解析不了的,所以要用正则表达式。非结构化,无规律的网页一般用正则。 正则表达式出现括号的话,第一个括号就是group(1),第二个就是group(2)。把想匹配的东西用括号括起来,在配置左端点右端点,就可以匹配出来了。 ...原创 2018-10-19 08:18:12 · 294 阅读 · 0 评论 -
催大佬的request讲解
捕捉异常:程序必要的时候要进行异常的捕捉,这样才不会导致程序突然退出,保证程序能正常运行,还能打印知道异常的信息 ...原创 2018-10-19 08:17:46 · 255 阅读 · 0 评论 -
同步,多线程 ,多线程方式实现并发。
IO请求几乎不占CPU的。同步请求相当于排队买东西,一个卡主了,其他的都结不了账了。线程并不是越多越好,如果他特别多还不如同步高,所以对线程要有个限制,所以就出现了线程池,线程池在python3里才有的,python2里没有的。创建进程的话是耗费很多资源的,创建线程是几乎不耗费资源的。创建进程相当于建一个工厂,然后工厂里有多人(这些人就相当于线程,共同分享进程的资源)。python的进程里...原创 2018-05-11 17:49:09 · 332 阅读 · 0 评论 -
安装有scrapy,但是总是在终端import不出来的问题。python 安装库
如果依赖的包不全,在终端import scrapy 会出现以下图片的问题。 下载python包和库的网址是:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 可以先把对应的库下载下来,库文件夹下面cmd 安装。 ...原创 2018-05-12 19:08:46 · 2083 阅读 · 0 评论 -
win10下的 scrapy 框架的安装
安装scrapy之前必须要安装两个依赖的库。最好把对应的包下载下来,再在对应的目录下,用cmd安装,这样一般不会出错下载库的链接为:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml1.lxml-4.2.1-cp36-cp36m-win32.whl2.Twisted-18.4.0-cp36-cp36m-win32.whl3.然后就可以安装sc...原创 2018-05-13 17:58:35 · 269 阅读 · 0 评论 -
创建scrapy 项目 :scrapy startproject pac(创建scrapy项目的命令,后面那个是项目的名字)
原创 2018-05-13 17:59:38 · 3764 阅读 · 0 评论 -
爬虫杂记2(爬虫,数据,网站)
爬虫开发的步骤:分析网站的结构---了解我们的需求---请求的分析 所有的爬虫都是模拟浏览器的请求。 爬虫:数据采集 互联网 工具获取我们想要的数据 加密,http com控件 逆向 公开数据 - 数据清洗 - 数据挖掘 - 数据分析- 分析网站结构- 了解我们的需求- 请求分析 -1. 判断数据是否在当前请求的网页源代码当中(有三种可能性) -2. 判断...原创 2018-05-20 17:01:28 · 224 阅读 · 0 评论 -
爬虫杂记2
图片,网页,多媒体(网络资源),每一个网络资源都会有一个独一无二的urlhttp请求 去对应的url请求数据,有get请求和post请求。网页有静态加载和动态加载的,静态加载的可以在网页的源代码中看到网页中的信息,动态加载的就不可以。爬虫既可以cookie登录也可以模拟登录。json和字典类似 ...原创 2018-05-21 08:46:52 · 164 阅读 · 0 评论 -
异步爬虫杂记1
MVC设计模式可以说是前后端分离,现在的网站一般都是采用前后端分离的。前后端分离的话用爬虫就要通过抓包来爬取数据了。做爬虫的第一步是分析。 分析:1.数据是否在网页的源代码(html)里面 2.是否为ajax异步加载(用后台API开发)。ajax异步加载对于前端来说开发难度高(因为异步加载不仅要请求后端,还要JS把进行页面的渲染),对于后端来说开发难度低(异步加载后台...原创 2018-05-26 09:38:28 · 200 阅读 · 0 评论 -
爬虫杂记4
验证码的有效期大概是2分钟。做爬虫一般都用utf-8(国际编码)http 与https 的区别:两者都是基于http协议,https有加密数据的功能,不过https要收钱。即https有一个加密 的证书,这个证书可以去购买也可以自己做。验证码的种类:字符串(早期的)字符生成图片坐标(极验,12306,点击)手机短信验证码语音验证码。 ...原创 2018-05-26 15:13:22 · 198 阅读 · 0 评论 -
爬虫杂记5
原创 2018-05-26 20:37:41 · 208 阅读 · 0 评论 -
模拟登录
原创 2018-05-23 19:33:36 · 292 阅读 · 0 评论 -
python 虚拟环境(virtualenv)
安装virtualenv:在命令行里输入pip install virtualenv在一个目录下面创建虚拟环境:python -m venv pythonxnhj(虚拟环境会把python主要的文件拷贝进去)或者这样创建:virtualenv pythonxnhj(这两种方法都可以创建python的虚拟环境)...原创 2018-05-23 23:09:36 · 398 阅读 · 0 评论 -
pycharm链接数据库!
原创 2018-05-23 23:10:23 · 1220 阅读 · 0 评论 -
爬虫杂记6
原创 2018-05-29 09:37:35 · 192 阅读 · 0 评论 -
爬虫杂记3
python执行计算密集型的时候,python的多线程是没有用的,因为python有一个GIL(线程锁 ),但是进行IO密集型时候有用代理ip池有:西刺代理原创 2018-05-24 23:47:28 · 175 阅读 · 0 评论 -
PySpider
原创 2018-05-31 10:24:11 · 384 阅读 · 0 评论 -
Anaconda简介
anaconda是python发行的包的管理工具,其中自带python的版本,还带很多python的包.安装它比安装python好。可以省掉再安装python包的时间。原创 2018-06-17 09:28:24 · 2025 阅读 · 0 评论 -
ajax动态加载网页抓取(转载)
具体数据请求的方法请看:https://zhuanlan.zhihu.com/p/35682031 ajax动态加载网页抓取Dwzb统计专业学生25 人赞了该文章AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。举一个例子,打开这个页面,先不要动,观察右边滚动条的长度,然后当你把滚动条下拉到底之后,滚动条就变短了,即页面变长了,也就是说有一部...转载 2018-10-19 07:58:53 · 3558 阅读 · 1 评论 -
scrapy默认去重
作者:乌尔班链接:https://www.zhihu.com/question/19793879/answer/312467126来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。增量爬取,一般两类情况:1.一个网站出现了新的页面,2.一个老页面内容变更了。无论哪一种,增量的前提都是已经存下已经爬取好的信息(至于哪些要存,下面说),当出现新的情况...原创 2019-03-06 12:45:22 · 3769 阅读 · 0 评论