自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy抓取苏宁所有图书并保存到数据库

scrapy抓取苏宁所有图书 采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格) 注意 需要根据苏宁图书网页分类建立相应分类 图书详情页每页有60条图书数据,但response.body中只有30条,需要构造url发起请求获取 实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同,需要单独构造url发起请求 需将setting中robots协议改为false 价格抓取图书详情页构造url进行抓取 在for循环内yield

2020-07-15 10:52:37 294

原创 mongodb操作

mongodb中数据库和集合命令 数据库不需要提前创建,插入数据的时候自动创建 show dbs/show databases #查看所有集合 use 数据库名 # 使用数据库 数据库名.dropDatabase() #删除数据库 集合不需要提前创建,插入数据的时候自动创建 show collections # 查看所有的集合 db.集合名.drop() #s删除集合 db.集合名.find() # 查看集合内容 insert与save区别 插入 db.col_nam

2020-07-10 15:29:23 168

原创 catalina Homebrew 安装mongodb

catalina Homebrew 安装mongodb 1.brew tap mongodb/brew 2.brew install mongodb-community@4.2 sudo mkdir -p /data/db 这里必须要创建这个文件夹的不然运行不了,可以改位置但是也不建议 提示没有权限(read-only),解决如下 控制台执行 csrutil status 显示 System Integrity Protection status: disabled. 控制台执行 sudo

2020-07-10 11:41:34 193

原创 homebrew长时间停留Updating Homebrew

homebrew长时间停留Updating Homebrew 在国内的网络环境下使用 Homebrew 安装软件的过程中可能会长时间卡在 Updating Homebrew 这个步骤。 例:执行 brew install composer 命令 ➜ ~ brew install composer Updating Homebrew… # 如果碰到长时间卡在这里,参考以下 2 种处理方法 方法 1:按住 control + c 取消本次更新操作 ➜ ~ brew install composer Upda

2020-07-10 08:42:25 155

原创 Mac 下selenium 配置chrome插件

Mac 下selenium 配置chrome插件 -Chromedriver安装,将其移动到usr/bin或usr/local/bin目录下 -selenium包安装 from selenium import webdriver option = webdriver.ChromeOptions() # 加载所有插件 option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C

2020-07-08 08:48:35 637

原创 you-get安装及使用

you-get使用 you-get安装 pip install you-get you-get Mac 电脑安装 brew install you-get optional arguments: -V, --version Print version and exit -h, --help Print this help message and exit Dry-run options: (no actual downloading) -i, -

2020-07-07 20:20:37 1507

原创 协程池gevent实现糗事百科爬取

标题 -协程池gevent实现糗事百科爬取 import gevent.monkey gevent.monkey.patch_all() from gevent.pool import Pool import requests from lxml import etree from queue import Queue from pprint import pprint import time class Qiubai: def __init__(self): self.temp

2020-07-06 22:38:58 228

原创 线程池实现糗事百科爬取

线程池实现糗事百科爬取 import requests from lxml import etree from queue import Queue from pprint import pprint from multiprocessing.dummy import Pool import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}

2020-07-06 22:09:25 185 1

原创 多进程爬取糗事百科JoinableQueue使用

多进程爬取糗事百科 使用multiprocess模块 import requests from lxml import etree from multiprocessing import JoinableQueue as Queue from multiprocessing import Process import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike

2020-07-06 15:40:45 147

原创 Python多线程队列爬取糗事百科

Python多线程爬虫 使用线程队列queue xpath解析页面 import requests from lxml import etree from queue import Queue import threading import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers

2020-07-06 15:25:54 187

原创 Python糗事百科爬虫

糗事百科爬虫 -通过面向对象实现糗事百科页面爬取 使用xpath解析页面 import requests from lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma

2020-07-06 12:21:21 145

51job_craw.zip

采用sqlalchemy框架 多线程 爬取几万条数据删选出Python开发工程师 计算Python开发工程师平均薪资

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除