- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 scrapy抓取苏宁所有图书并保存到数据库
scrapy抓取苏宁所有图书采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格)注意需要根据苏宁图书网页分类建立相应分类图书详情页每页有60条图书数据,但response.body中只有30条,需要构造url发起请求获取实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同,需要单独构造url发起请求需将setting中robots协议改为false价格抓取图书详情页构造url进行抓取在for循环内yield
2020-07-15 10:52:37
294
原创 mongodb操作
mongodb中数据库和集合命令数据库不需要提前创建,插入数据的时候自动创建show dbs/show databases #查看所有集合use 数据库名 # 使用数据库数据库名.dropDatabase() #删除数据库集合不需要提前创建,插入数据的时候自动创建show collections # 查看所有的集合db.集合名.drop() #s删除集合db.集合名.find() # 查看集合内容insert与save区别 插入db.col_nam
2020-07-10 15:29:23
168
原创 catalina Homebrew 安装mongodb
catalina Homebrew 安装mongodb1.brew tap mongodb/brew2.brew install mongodb-community@4.2sudo mkdir -p /data/db这里必须要创建这个文件夹的不然运行不了,可以改位置但是也不建议提示没有权限(read-only),解决如下控制台执行 csrutil status 显示 System Integrity Protection status: disabled.控制台执行 sudo
2020-07-10 11:41:34
193
原创 homebrew长时间停留Updating Homebrew
homebrew长时间停留Updating Homebrew在国内的网络环境下使用 Homebrew 安装软件的过程中可能会长时间卡在 Updating Homebrew 这个步骤。例:执行 brew install composer 命令➜ ~ brew install composerUpdating Homebrew… # 如果碰到长时间卡在这里,参考以下 2 种处理方法方法 1:按住 control + c 取消本次更新操作➜ ~ brew install composerUpda
2020-07-10 08:42:25
155
原创 Mac 下selenium 配置chrome插件
Mac 下selenium 配置chrome插件-Chromedriver安装,将其移动到usr/bin或usr/local/bin目录下-selenium包安装from selenium import webdriveroption = webdriver.ChromeOptions()# 加载所有插件option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C
2020-07-08 08:48:35
637
原创 you-get安装及使用
you-get使用you-get安装pip install you-getyou-get Mac 电脑安装brew install you-getoptional arguments: -V, --version Print version and exit -h, --help Print this help message and exitDry-run options: (no actual downloading) -i, -
2020-07-07 20:20:37
1507
原创 协程池gevent实现糗事百科爬取
标题-协程池gevent实现糗事百科爬取import gevent.monkeygevent.monkey.patch_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintimport timeclass Qiubai: def __init__(self): self.temp
2020-07-06 22:38:58
228
原创 线程池实现糗事百科爬取
线程池实现糗事百科爬取import requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintfrom multiprocessing.dummy import Poolimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}
2020-07-06 22:09:25
185
1
原创 多进程爬取糗事百科JoinableQueue使用
多进程爬取糗事百科使用multiprocess模块import requestsfrom lxml import etree from multiprocessing import JoinableQueue as Queuefrom multiprocessing import Processimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike
2020-07-06 15:40:45
147
原创 Python多线程队列爬取糗事百科
Python多线程爬虫使用线程队列queuexpath解析页面import requestsfrom lxml import etree from queue import Queueimport threadingimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers
2020-07-06 15:25:54
187
原创 Python糗事百科爬虫
糗事百科爬虫-通过面向对象实现糗事百科页面爬取使用xpath解析页面import requestsfrom lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma
2020-07-06 12:21:21
147
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅