- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 scrapy抓取苏宁所有图书并保存到数据库
scrapy抓取苏宁所有图书 采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格) 注意 需要根据苏宁图书网页分类建立相应分类 图书详情页每页有60条图书数据,但response.body中只有30条,需要构造url发起请求获取 实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同,需要单独构造url发起请求 需将setting中robots协议改为false 价格抓取图书详情页构造url进行抓取 在for循环内yield
2020-07-15 10:52:37
294
原创 mongodb操作
mongodb中数据库和集合命令 数据库不需要提前创建,插入数据的时候自动创建 show dbs/show databases #查看所有集合 use 数据库名 # 使用数据库 数据库名.dropDatabase() #删除数据库 集合不需要提前创建,插入数据的时候自动创建 show collections # 查看所有的集合 db.集合名.drop() #s删除集合 db.集合名.find() # 查看集合内容 insert与save区别 插入 db.col_nam
2020-07-10 15:29:23
168
原创 catalina Homebrew 安装mongodb
catalina Homebrew 安装mongodb 1.brew tap mongodb/brew 2.brew install mongodb-community@4.2 sudo mkdir -p /data/db 这里必须要创建这个文件夹的不然运行不了,可以改位置但是也不建议 提示没有权限(read-only),解决如下 控制台执行 csrutil status 显示 System Integrity Protection status: disabled. 控制台执行 sudo
2020-07-10 11:41:34
193
原创 homebrew长时间停留Updating Homebrew
homebrew长时间停留Updating Homebrew 在国内的网络环境下使用 Homebrew 安装软件的过程中可能会长时间卡在 Updating Homebrew 这个步骤。 例:执行 brew install composer 命令 ➜ ~ brew install composer Updating Homebrew… # 如果碰到长时间卡在这里,参考以下 2 种处理方法 方法 1:按住 control + c 取消本次更新操作 ➜ ~ brew install composer Upda
2020-07-10 08:42:25
155
原创 Mac 下selenium 配置chrome插件
Mac 下selenium 配置chrome插件 -Chromedriver安装,将其移动到usr/bin或usr/local/bin目录下 -selenium包安装 from selenium import webdriver option = webdriver.ChromeOptions() # 加载所有插件 option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C
2020-07-08 08:48:35
637
原创 you-get安装及使用
you-get使用 you-get安装 pip install you-get you-get Mac 电脑安装 brew install you-get optional arguments: -V, --version Print version and exit -h, --help Print this help message and exit Dry-run options: (no actual downloading) -i, -
2020-07-07 20:20:37
1507
原创 协程池gevent实现糗事百科爬取
标题 -协程池gevent实现糗事百科爬取 import gevent.monkey gevent.monkey.patch_all() from gevent.pool import Pool import requests from lxml import etree from queue import Queue from pprint import pprint import time class Qiubai: def __init__(self): self.temp
2020-07-06 22:38:58
228
原创 线程池实现糗事百科爬取
线程池实现糗事百科爬取 import requests from lxml import etree from queue import Queue from pprint import pprint from multiprocessing.dummy import Pool import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}
2020-07-06 22:09:25
185
1
原创 多进程爬取糗事百科JoinableQueue使用
多进程爬取糗事百科 使用multiprocess模块 import requests from lxml import etree from multiprocessing import JoinableQueue as Queue from multiprocessing import Process import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike
2020-07-06 15:40:45
147
原创 Python多线程队列爬取糗事百科
Python多线程爬虫 使用线程队列queue xpath解析页面 import requests from lxml import etree from queue import Queue import threading import time class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers
2020-07-06 15:25:54
187
原创 Python糗事百科爬虫
糗事百科爬虫 -通过面向对象实现糗事百科页面爬取 使用xpath解析页面 import requests from lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma
2020-07-06 12:21:21
145
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅