Xs-1-优快云博客

原创 scrapy抓取苏宁所有图书并保存到数据库

scrapy抓取苏宁所有图书采用mongodb存储爬取图书数据，爬取苏宁全网图书信息（图书名，图书所属详细分类商店，价格）注意需要根据苏宁图书网页分类建立相应分类图书详情页每页有60条图书数据，但response.body中只有30条，需要构造url发起请求获取实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同，需要单独构造url发起请求需将setting中robots协议改为false价格抓取图书详情页构造url进行抓取在for循环内yield

2020-07-15 10:52:37 294

原创 mongodb操作

mongodb中数据库和集合命令数据库不需要提前创建，插入数据的时候自动创建show dbs/show databases #查看所有集合use 数据库名 # 使用数据库数据库名.dropDatabase() #删除数据库集合不需要提前创建，插入数据的时候自动创建show collections # 查看所有的集合db.集合名.drop() #s删除集合db.集合名.find() # 查看集合内容insert与save区别插入db.col_nam

2020-07-10 15:29:23 168

原创 catalina Homebrew 安装mongodb

catalina Homebrew 安装mongodb1.brew tap mongodb/brew2.brew install mongodb-community@4.2sudo mkdir -p /data/db这里必须要创建这个文件夹的不然运行不了，可以改位置但是也不建议提示没有权限(read-only)，解决如下控制台执行 csrutil status 显示 System Integrity Protection status: disabled.控制台执行 sudo

2020-07-10 11:41:34 193

原创 homebrew长时间停留Updating Homebrew

homebrew长时间停留Updating Homebrew在国内的网络环境下使用 Homebrew 安装软件的过程中可能会长时间卡在 Updating Homebrew 这个步骤。例：执行 brew install composer 命令➜ ~ brew install composerUpdating Homebrew… # 如果碰到长时间卡在这里，参考以下 2 种处理方法方法 1：按住 control + c 取消本次更新操作➜ ~ brew install composerUpda

2020-07-10 08:42:25 155

原创 Mac 下selenium 配置chrome插件

Mac 下selenium 配置chrome插件-Chromedriver安装，将其移动到usr/bin或usr/local/bin目录下-selenium包安装from selenium import webdriveroption = webdriver.ChromeOptions()# 加载所有插件option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C

2020-07-08 08:48:35 637

原创 you-get安装及使用

you-get使用you-get安装pip install you-getyou-get Mac 电脑安装brew install you-getoptional arguments: -V, --version Print version and exit -h, --help Print this help message and exitDry-run options: (no actual downloading) -i, -

2020-07-07 20:20:37 1507

原创协程池gevent实现糗事百科爬取

标题-协程池gevent实现糗事百科爬取import gevent.monkeygevent.monkey.patch_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintimport timeclass Qiubai: def __init__(self): self.temp

2020-07-06 22:38:58 228

原创线程池实现糗事百科爬取

线程池实现糗事百科爬取import requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintfrom multiprocessing.dummy import Poolimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}

2020-07-06 22:09:25 185 1

原创多进程爬取糗事百科JoinableQueue使用

多进程爬取糗事百科使用multiprocess模块import requestsfrom lxml import etree from multiprocessing import JoinableQueue as Queuefrom multiprocessing import Processimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike

2020-07-06 15:40:45 147

原创 Python多线程队列爬取糗事百科

Python多线程爬虫使用线程队列queuexpath解析页面import requestsfrom lxml import etree from queue import Queueimport threadingimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers

2020-07-06 15:25:54 187

原创 Python糗事百科爬虫

糗事百科爬虫-通过面向对象实现糗事百科页面爬取使用xpath解析页面import requestsfrom lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma

2020-07-06 12:21:21 147

qq_44224678的博客