自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy抓取苏宁所有图书并保存到数据库

scrapy抓取苏宁所有图书采用mongodb存储爬取图书数据,爬取苏宁全网图书信息(图书名,图书所属详细分类商店,价格)注意需要根据苏宁图书网页分类建立相应分类图书详情页每页有60条图书数据,但response.body中只有30条,需要构造url发起请求获取实际操作发现–>雅思IELTS的url 地址与其他详情页图书不同,需要单独构造url发起请求需将setting中robots协议改为false价格抓取图书详情页构造url进行抓取在for循环内yield

2020-07-15 10:52:37 294

原创 mongodb操作

mongodb中数据库和集合命令数据库不需要提前创建,插入数据的时候自动创建show dbs/show databases #查看所有集合use 数据库名 # 使用数据库数据库名.dropDatabase() #删除数据库集合不需要提前创建,插入数据的时候自动创建show collections # 查看所有的集合db.集合名.drop() #s删除集合db.集合名.find() # 查看集合内容insert与save区别 插入db.col_nam

2020-07-10 15:29:23 168

原创 catalina Homebrew 安装mongodb

catalina Homebrew 安装mongodb1.brew tap mongodb/brew2.brew install mongodb-community@4.2sudo mkdir -p /data/db这里必须要创建这个文件夹的不然运行不了,可以改位置但是也不建议提示没有权限(read-only),解决如下控制台执行 csrutil status 显示 System Integrity Protection status: disabled.控制台执行 sudo

2020-07-10 11:41:34 193

原创 homebrew长时间停留Updating Homebrew

homebrew长时间停留Updating Homebrew在国内的网络环境下使用 Homebrew 安装软件的过程中可能会长时间卡在 Updating Homebrew 这个步骤。例:执行 brew install composer 命令➜ ~ brew install composerUpdating Homebrew… # 如果碰到长时间卡在这里,参考以下 2 种处理方法方法 1:按住 control + c 取消本次更新操作➜ ~ brew install composerUpda

2020-07-10 08:42:25 155

原创 Mac 下selenium 配置chrome插件

Mac 下selenium 配置chrome插件-Chromedriver安装,将其移动到usr/bin或usr/local/bin目录下-selenium包安装from selenium import webdriveroption = webdriver.ChromeOptions()# 加载所有插件option.add_argument("--user-data-dir="+"/Users/zhaojiaming/Library/Application Support/Google/C

2020-07-08 08:48:35 637

原创 you-get安装及使用

you-get使用you-get安装pip install you-getyou-get Mac 电脑安装brew install you-getoptional arguments: -V, --version Print version and exit -h, --help Print this help message and exitDry-run options: (no actual downloading) -i, -

2020-07-07 20:20:37 1507

原创 协程池gevent实现糗事百科爬取

标题-协程池gevent实现糗事百科爬取import gevent.monkeygevent.monkey.patch_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintimport timeclass Qiubai: def __init__(self): self.temp

2020-07-06 22:38:58 228

原创 线程池实现糗事百科爬取

线程池实现糗事百科爬取import requestsfrom lxml import etreefrom queue import Queuefrom pprint import pprintfrom multiprocessing.dummy import Poolimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}

2020-07-06 22:09:25 185 1

原创 多进程爬取糗事百科JoinableQueue使用

多进程爬取糗事百科使用multiprocess模块import requestsfrom lxml import etree from multiprocessing import JoinableQueue as Queuefrom multiprocessing import Processimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike

2020-07-06 15:40:45 147

原创 Python多线程队列爬取糗事百科

Python多线程爬虫使用线程队列queuexpath解析页面import requestsfrom lxml import etree from queue import Queueimport threadingimport timeclass Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers

2020-07-06 15:25:54 187

原创 Python糗事百科爬虫

糗事百科爬虫-通过面向对象实现糗事百科页面爬取使用xpath解析页面import requestsfrom lxml import etree class Qiubai: def __init__(self): self.temp_url = "https://www.qiushibaike.com/hot/page/{}" self.headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Ma

2020-07-06 12:21:21 147

51job_craw.zip

采用sqlalchemy框架 多线程 爬取几万条数据删选出Python开发工程师 计算Python开发工程师平均薪资

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除