三千淼淼-优快云博客

原创 scrapy爬虫框架之理解篇

提问：为什么使用scrapy框架来写爬虫？在python爬虫中：requests + selenium 可以解决目前90%的爬虫需求，难道scrapy 是解决剩下的10%的吗？显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。 1.scrapy 的基础概念：　　scrapy 是一个为了爬取网站数据，提取结构...

2018-09-04 19:31:40 347

原创淘宝商品爬取并存到mysql

新建爬虫项目 tb.py# -*- coding: utf-8 -*-import scrapy,jsonfrom taobao.items import TaobaoItemclass TbSpider(scrapy.Spider): name = 'tb' allowed_domains = ['taobao.com'] start_urls = ['...

2018-09-03 18:55:07 1039

转载 Python Scrapy爬虫框架学习

一、Scrapy框架简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展...

2018-08-28 20:38:52 366

原创 selenium 豆瓣登录

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...

2018-08-27 12:00:03 610

原创爬取mzitu图线程进程

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): # print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_u...

2018-08-21 20:22:43 2794

原创 dytt 爬取磁力链接保存mysql

import requests,reimport pymysql# 连接数据库class mysqlhelp(): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='py10',...

2018-08-19 23:12:57 5466

原创链家 xpath

调用封装mysql 保存链家前三页import requests,refrom lxml import etreeimport mysqlhelpbase_url = 'https://bj.lianjia.com/zufang/pg%srp1/'myhelp = mysqlhelp.mysql_conn()sql = 'INSERT INTO lianjia (titl...

2018-08-17 21:22:53 369

原创今日头条 json 街拍 baocun

import reimport requestsimport jsonimport osfrom urllib import requesturl = 'https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&a...

2018-08-16 22:47:35 416

原创雪球网 json 获取

import jsonfrom urllib import request# 因为不能访问所以要加个头headers = { # 'Accept':' */*', # 'Accept-Language':' zh-CN,zh;q=0.9', # 'Connection':' keep-alive', 'Cookie':' device_id=77fe07...

2018-08-15 22:22:19 1557

原创 pymysql 封装类保存

import pymysql #导入数据库包class mysql_conn(object): # mysql_conn 主要的功能是，将谅解数据库的操作变成只连接一次 # 魔术方法, 初始化, 构建函数 def __init__(self): # 初始化 # 创建连接 db相当于mysql的连接 self.db ...

2018-08-15 21:12:07 1572

原创封装cookie 拓展

from urllib import request,parsefrom urllib.error import HTTPError, URLError# 用来保存cookiefrom http import cookiejar #cookie类的包class session(object): def __init__(self): # 通过对象来保存co...

2018-08-14 22:37:13 261

原创人人网 cookie 保存

from day1.tuozhan_all import post,get #导入post,getimport jsonfrom urllib import request, parse# 用来保存cookiefrom http import cookiejar #cookie类的包# 通过对象来保存cookiecookie_object = cookiejar.Cooki...

2018-08-14 21:44:13 224

原创 post get 两种方法

from urllib import request,parsefrom urllib.error import HTTPError, URLError# a. 定义一个get函数 get(url,headers=None)def get(url,headers=None): return urlrequests(url,headers=headers) #内部可以调用url...

2018-08-14 08:39:37 299

原创 session和cookie的区别,他们都是什么

HTTP协议引入了cookie和session这两个概念cookie是服务器传递到浏览器，保存在浏览器中的数据，然后浏览器每次请求都带上cookie，这样就可以标识用哪一个用户发起的请求，比如说把用户登录的用户名和密码保存在cookie中，只要cookie没有过期，以后用户每次登录都可以自动登录了，不需要在此输入用户名和密码，因为浏览器在发起请求的时候已经把cookie中的用户名和密码传...

2018-08-13 20:14:58 174

bade