自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bade

爬虫学习

  • 博客(14)
  • 收藏
  • 关注

原创 scrapy爬虫框架之理解篇

提问: 为什么使用scrapy框架来写爬虫 ?           在python爬虫中:requests  +  selenium  可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。  1.scrapy 的基础概念:  scrapy 是一个为了爬取网站数据,提取结构...

2018-09-04 19:31:40 329

原创 淘宝 商品爬取并存到mysql

新建爬虫项目    tb.py# -*- coding: utf-8 -*-import scrapy,jsonfrom taobao.items import TaobaoItemclass TbSpider(scrapy.Spider): name = 'tb' allowed_domains = ['taobao.com'] start_urls = ['...

2018-09-03 18:55:07 1025

转载 Python Scrapy爬虫框架学习

 一、Scrapy框架简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展...

2018-08-28 20:38:52 349

原创 selenium 豆瓣登录

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...

2018-08-27 12:00:03 597

原创 爬取mzitu图 线程 进程

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): # print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_u...

2018-08-21 20:22:43 2783

原创 dytt 爬取磁力链接保存mysql

import requests,reimport pymysql# 连接数据库class mysqlhelp(): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='py10',...

2018-08-19 23:12:57 5277

原创 链家 xpath

 调用封装mysql  保存链家前三页import requests,refrom lxml import etreeimport mysqlhelpbase_url = 'https://bj.lianjia.com/zufang/pg%srp1/'myhelp = mysqlhelp.mysql_conn()sql = 'INSERT INTO lianjia (titl...

2018-08-17 21:22:53 358

原创 今日头条 json 街拍 baocun

import reimport requestsimport jsonimport osfrom urllib import requesturl = 'https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&a...

2018-08-16 22:47:35 403

原创 雪球网 json 获取

import jsonfrom urllib import request# 因为不能访问 所以要加个头headers = { # 'Accept':' */*', # 'Accept-Language':' zh-CN,zh;q=0.9', # 'Connection':' keep-alive', 'Cookie':' device_id=77fe07...

2018-08-15 22:22:19 1487

原创 pymysql 封装类 保存

import pymysql #导入数据库包class mysql_conn(object): # mysql_conn 主要的功能是,将谅解数据库的操作变成只连接一次 # 魔术方法, 初始化, 构建函数 def __init__(self): # 初始化 # 创建连接 db相当于mysql的连接 self.db ...

2018-08-15 21:12:07 1560

原创 封装cookie 拓展

from urllib import request,parsefrom urllib.error import HTTPError, URLError# 用来保存cookiefrom http import cookiejar #cookie类的包class session(object): def __init__(self): # 通过对象来保存co...

2018-08-14 22:37:13 247

原创 人人网 cookie 保存

from day1.tuozhan_all import post,get #导入post,getimport jsonfrom urllib import request, parse# 用来保存cookiefrom http import cookiejar #cookie类的包# 通过对象来保存cookiecookie_object = cookiejar.Cooki...

2018-08-14 21:44:13 214

原创 post get 两种方法

from urllib import request,parsefrom urllib.error import HTTPError, URLError# a. 定义一个get函数 get(url,headers=None)def get(url,headers=None): return urlrequests(url,headers=headers) #内部可以调用url...

2018-08-14 08:39:37 292

原创 session和cookie的区别,他们都是什么

HTTP协议引入了cookie和session这两个概念cookie是服务器传递到浏览器,保存在浏览器中的数据,然后浏览器每次请求都带上cookie,这样就可以标识用哪一个用户发起的请求, 比如说把用户登录的用户名和密码保存在cookie中, 只要cookie没有过期,以后用户每次登录都可以自动登录了,不需要在此输入用户名和密码, 因为浏览器在发起请求的时候已经把cookie中的用户名和密码传...

2018-08-13 20:14:58 160

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除