
爬虫
有关爬虫的相关知识
Mr.冷小陌
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫(图片)
从网站里爬图片 代码如下: import re,os """ re.match 必须从头开始严格匹配 re.search 不追求在字符串开头 re.findall 查询结果集 -> list """ email_regex = '[\w]+@[a-zA-Z0-9]+.[a-z]+' # 1456959971@qq.com meinv_regex = '"objURL":"(...原创 2019-10-11 16:15:05 · 159 阅读 · 0 评论 -
爬虫入门操作
存文件的三种方式: txt文件 with open('目录.txt','a',encoding='utf-8') as f: f.write(alist+'\n') csv文件 with open('qdzw.csv','w',encoding='utf-8') as f: writer = csv.writer(f,delimiter=',') writer.writerow(['title','author','cont']) with open('qdzw.csv','a.原创 2020-07-01 15:05:37 · 234 阅读 · 0 评论 -
增量式与分布式爬虫
分布式爬虫 redis安装 用户自定义目录,也就是你想安装的位置,新建一个文件夹,注意你的路径里不要有中文 将redis-x64-3.2.100.zip压缩包 解压到你当前新建的文件夹里 将解压的文件的路径复制 并 配置到环境变量中 右击此电脑点击属性找到高级设置,然后点环境变量—系统变量—双击path—新建–粘贴路径即可 分布式 分布式爬虫 多台服务器机群,共同爬取数据 适用于数据量...原创 2019-11-08 17:13:07 · 526 阅读 · 0 评论 -
存mysql数据库
import requests import pymysql # 连接mysql conn = pymysql.connect(user='root',host='localhost',port=3306,password='',database='bbb',charset='utf8') cur = conn.cursor() url = 'https://api.bilibili.com/x...原创 2019-11-07 11:26:48 · 118 阅读 · 0 评论 -
存入mongo数据库
普通存 from selenium import webdriver from lxml import etree import pymongo # 创建连接 conn = pymongo.MongoClient('localhost',27017) # 建库 db = conn.wangyi # 建表 table = db.wang def save_data(dic): tab...原创 2019-11-07 11:20:32 · 135 阅读 · 0 评论 -
快速生成User-Agent
新建一个py文件 from fake_useragent import UserAgent user_agent = UserAgent() print(user_agent.Chrome) print(user_agent.IE) print(user_agent.Firefox)原创 2019-11-05 11:33:31 · 1232 阅读 · 0 评论 -
使用scrapy框架 爬取辽宁信息网
流程如下 爬虫文件中,也就是执行scrapy genspider 爬虫名 域名 后建的py文件 # -*- coding: utf-8 -*- import scrapy from ..items import LnzbItem class LnzxzbSpider(scrapy.Spider): name = 'lnzxzb' # allo...原创 2019-11-04 18:57:28 · 126 阅读 · 0 评论 -
将爬取的图片地址存入mongodb数据库
流程如下 import requests from lxml import etree import pymongo # 与mongodb数据建立连接 conn = pymongo.MongoClient('localhost',27017) # 连接或创建一个库 db = conn.imgs # 创建表 table = db.image # 定义函数用来存储图片地址到mongo库 def...原创 2019-10-30 16:01:43 · 856 阅读 · 1 评论 -
利用js代码滚动 存储图片
这里用到了 自动化和 js滚动 import time import requests import random from selenium import webdriver from lxml import etree browser = webdriver.Chrome('./chromedriver.exe') browser.get('http://image.baidu.c...原创 2019-10-28 17:40:21 · 209 阅读 · 0 评论 -
urllib中的urlopen发送get和post请求
get请求 from urllib import request url = 'http://www.baidu.com' res = request.urlopen(url=url) # print(res.read()) with open('baidu_index.html','w',encoding='utf-8') as f: f.write(res.read().decod...原创 2019-10-23 19:50:21 · 2342 阅读 · 1 评论 -
链接提交—加快网站内容抓取
https://ziyuan.baidu.com/linksubmit/url原创 2019-10-23 10:15:41 · 399 阅读 · 0 评论 -
快捷安装虚拟环境所需要的包
测试流程 在桌面创建一个文件夹,然后在地址栏中输入cmd打开命令窗口 在命令窗口输入命令 pip freeze > requirements.txt,然后它会自动生成一个txt文件在该文件夹下,这个文件打开就是你当前虚拟环境所安装的所有 包 在cmd窗口输入pip install -r ./requirements.txt ,他会自动安装这个文件里的所有的包 ...原创 2019-10-22 19:00:20 · 290 阅读 · 0 评论 -
虚拟环境的安装和使用
流程 必须安装virtualenvwrapper-win pip install virtualenvwrapper-win 虚拟环境常用的命令 mkvirtualenv 环境名称 # 创建虚拟环境并自动切换到该环境下 workon 环境名 # 切换到某虚拟环境下 pip list rmvirtualenv 环境名称 # 删除虚拟环境 deactivate # 退出虚拟环境 l...原创 2019-10-22 10:32:59 · 230 阅读 · 1 评论