
爬虫
面向未来的历史
这个作者很懒,什么都没留下…
展开
-
python类中使用signal
背景: 如果我们需要在类实例退出的时候进行一些处理,通常,我们可以将会处理逻辑写在**__del__**函数中, 类实例销毁的之前会调用该函数。handler 必须要接收两个参数, 可以设置执行默认操作,也可以自定义操作。但是如果是外部信号signal,如 ctrl+c, 中断程序时, 就不会掉用__del__函数。os._exit(0) : 正常退出python 程序。因此, 本次将在类中加入signal 处理逻辑。环境: python 3.9。原创 2023-08-11 09:32:56 · 304 阅读 · 0 评论 -
python实现简单爬虫以及正则表达式简述
python中使用 re模块实现对正则表达式的使用方式实现方式包括 2种1 re是一个引用模块,类似与其他的模块的使用,可以直接进行调取模块中的功能函数使用例如:print re.split(r'\d+','one1two2three3four4')得到的结果:['one', 'two', 'three', 'four', '']split语法: split(string[, maxsplit原创 2015-08-11 19:02:39 · 3547 阅读 · 0 评论 -
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ 。此网页中的最新、精华下面的内容是由JavaScript动态生成的。审查网页元素与网页源码是不同。以上是网页源码以上是审查网页元素所以此处不能简单的使用正则表达式来获取内容。以下是完整的获取内容并存储到数据库中。 实现思路: 抓取实际访问的动态页面的url – 使用正则表达式获取原创 2015-09-11 17:32:53 · 31724 阅读 · 2 评论 -
ImportError: 'DLL load failed: %1 is not a valid Win32 application.
问题描述遇到这种问题情况描述: windows: 64 位 win7 英文版系统 python :从官网下载的是 python 2.7.2 64 位的。实际在文件夹中显示如下: 然后安装 scrapy,试用一下scrapy,cmd打开命令提示符,输入: scrapy shell http://cn.bing.com/ 然后输出一堆,最后一行: ImportErr原创 2015-11-09 11:58:20 · 11079 阅读 · 0 评论 -
ghost.py 使用实例
安装安装需要包ghost.py 及PyQt或者PySide。 安装方法 : 打开cmd或者命令提示符命令窗口,输入 pip install ghost pip install pyside当然前提是要将pip.exe 的目录 ……python\Scripts 添加到环境变量中,或者将命令提示窗的工作路径换到此目录下。打开python GUI 输入:Import ghostHel原创 2016-01-01 12:31:37 · 9949 阅读 · 0 评论 -
抓取高速公路摄像照片
抓取某省所有高速公路上摄像头所拍下的照片,并保存到本地。根据抓包每张拍摄到的照片的链接地址,可以知道,摄像头的设备id,是照片链接中最重要的参数。同时也可以查看网页加载的js文件中,后台程序是怎样构造照片的链接地址。所以第一步是获取所有 摄像头的 deviceID, 然后构造照片的链接。 下载照片的二进制数据,保存到本地为照片。#coding:utf-8import jsonimport r原创 2016-03-17 11:25:31 · 1114 阅读 · 0 评论 -
基于webkit浏览器,自动获取完整cookie的方法 -- python
在进行自动抓取某些比较x的网站,例如知乎,微博时,需要登录,才能进行某些操作。例如在抓取知乎首页,使用requests,肯定是不能获取获取登录后的页面的信息。而使用selenium 中的firefox 进行操作,获取登录后的页面,依旧不能将这个页面上的信息抓取下来。登录前 登录后 一般有如下方法来解决:1 抓包获取cookie值通过在网页浏览器登录网站,然后刷新网页,通过查看源码,查看发送请求的原创 2016-10-22 12:05:45 · 7458 阅读 · 0 评论 -
安装 chromedriver 依赖
背景使用selenium驱动Chrome, 但是执行的时候报错, WebDriverException: Message: Service chromedriver unexpectedly exited. Status code was: 127这是因为缺少 chromedriver依赖环境: centos 7 64操作驱动Chrome程序from se...原创 2018-06-09 10:16:46 · 12920 阅读 · 0 评论 -
puppeteer使用代理
背景在使用puppeteer进行访问页面的时候,有时候需要用到代理。环境: centos 7chrome 安装puppeteer使用chrome。 参考chrome的命令行使用方式。 在官网中没看到说明,不过一般的执行文件都是支持help的。 在服务器上安装chrome : vim /etc/yum.repos.d/google-chrome.repo添加内容 [...原创 2018-06-11 10:04:18 · 13889 阅读 · 0 评论