
爬虫
cnmnui
这个作者很懒,什么都没留下…
展开
-
python字典--在key上使用正则表达式
首先感谢 https://www.icode9.com/content-1-290270.html最近在做爬虫的时候遇到一个问题:在抓取到的网页上面有一些反爬措施,抓取到的网页源码部分数据如下:<td width="308px"><div title="139798.5564万美$元">139798.5564万美$元</div>经过测试,中间的符号是随机的。而我们的需求要求把货币单位转成字母缩写,虽然问题不大,可以通过replace的方式替换,但是如果符号种类原创 2020-08-05 15:06:55 · 4460 阅读 · 0 评论 -
scrapy中cookie的使用
后两种方法,传入的cookies类型必需是字典方法一、修改 settings.py 文件1、COOKIES_ENABLED = False 取消注释2、DEFAULT_REQUEST_HEADERS = {}里面添加Cookie方法二、爬虫文件def start_requests(self): yield scrapy.Request(url=url,cookies={},cal...原创 2019-08-21 14:53:21 · 722 阅读 · 0 评论 -
scrapy分布式爬虫设置
scrapy本身不支持分布式爬虫,但是可以通过第三方模块来达到分布式目的.需要准备的环境:redis数据库: 版本:2.8以上python环境: 2.7或者3.4版本以上安装scrapy-redis模块: (scrapy版本需要1.1以上)方式一在本地写好爬虫项目以后,只需要在scrapy的settings里设置以下几项即可:1.重新指定调度器: 启用Redis调度存储请求队列SC...原创 2019-08-21 13:31:49 · 282 阅读 · 0 评论 -
58同城租房抓取
前两天,有个朋友让我帮他搞个爬虫,是58同城的。本以为很简单的事情,没想到,他们竟然用自己的一套字体。抓取出来的都是乱码图片就不放了,去58同城看看就知道。搞了大半天,查资料,找规律,还真给弄出来了。然后得意地给朋友看,谁知他来了一句,不是抓租房,是抓简历的!好吧。我重新搞一搞。不过还是先把这个记下来,以后也可以做个参考。加密的就不说了,去58一看就知道是什么回事。直接入正题:用到的工具:(都...原创 2019-09-27 19:05:43 · 2229 阅读 · 4 评论 -
豆瓣滑块登录
from selenium import webdriver# 鼠标动作from selenium.webdriver.common.action_chains import ActionChainsimport time def get_tracks(distance): """ distance: 传入的总距离 return : 存放每0.3秒移动的距离 ...原创 2019-11-01 19:27:19 · 813 阅读 · 0 评论 -
爬虫中图片验证码的处理
tesserct-ocr是由Google维护的开源OCR底层识别库,可以把图片上的文字转换成字符串.而pytesseract是对tesseract-ocr做的一层Python API封装.可以用pytesseract来完成对图片验证码的识别.Ubuntu安装 tesseract-ocrsudo apt-get install tesseract-ocrwindows安装 tesseract...原创 2019-08-21 15:21:19 · 1244 阅读 · 0 评论 -
scrapy中使用User-Agent
fake_useragent模块可以随机生成User-Agent, 我们不用再自己去收集User-Agent,用法也很简单首先导入模块:from fake_useragent import UserAgent实例化对象然后调用就可以了(这个模块的UserAgent多到不能想象)ua = UserAgent()>>> ua.random'Mozilla/5.0 (W...原创 2019-08-20 16:06:13 · 1125 阅读 · 0 评论 -
scrapy中使用ImagesPipeline下载图片的方法
scrapy 已经写好了图片下载的方法,只需要调用就可以了.# scapy 下载图片的源代码def get_media_requests(self, item, info): return [Request(x) for x in item.get(self.images_urls_field, [])]这个方法很简单,重写此方法,就可以下载需要的图片.需要导入两个模块from s...原创 2019-08-20 15:44:14 · 725 阅读 · 0 评论 -
python下selenium+chromedriver常用操作
导入模块from selenium import webdriver创建浏览器对象browser = webdriver.Firefox()get()方法会等待页面加载完全后才会继续执行下面语句browser.get(‘https://www.jd.com/’)查找节点node = browser.find_element_by_xpath(’’)node.send_keys(’’...原创 2019-08-19 09:27:37 · 1635 阅读 · 0 评论 -
京东华为P20手机评论数据抓取
用selenium 和chromedriver抓取京东手机P20的评论信息import timefrom selenium import webdriverimport csvfrom lxml import etreeclass JDSpider: def __init__(self): self.base_url = 'https://www.jd.com...原创 2019-08-15 21:12:49 · 474 阅读 · 0 评论 -
爬虫中session应用的一个简单实例: 利用requests的session功能登录人人网
import requestsfrom lxml import etreefrom fake_useragent import UserAgentclass RenRenSpider(object):def init(self):self.post_url = ‘http://www.renren.com/PLogin.do’self.get_url = ‘http://www.ren...原创 2019-08-15 17:23:36 · 1039 阅读 · 0 评论 -
requests高级用法
本文源自requests文档](https://requests.kennethreitz.org//zh_CN/latest/user/advanced.html#advanced)转载 2019-10-28 22:23:51 · 885 阅读 · 0 评论