- 博客(14)
- 收藏
- 关注
原创 scrapy爬虫框架之理解篇
提问: 为什么使用scrapy框架来写爬虫 ? 在python爬虫中:requests + selenium 可以解决目前90%的爬虫需求,难道scrapy 是解决剩下的10%的吗?显然不是。scrapy框架是为了让我们的爬虫更强大、更高效。接下来我们一起学习一下它吧。 1.scrapy 的基础概念: scrapy 是一个为了爬取网站数据,提取结构...
2018-09-04 19:31:40
329
原创 淘宝 商品爬取并存到mysql
新建爬虫项目 tb.py# -*- coding: utf-8 -*-import scrapy,jsonfrom taobao.items import TaobaoItemclass TbSpider(scrapy.Spider): name = 'tb' allowed_domains = ['taobao.com'] start_urls = ['...
2018-09-03 18:55:07
1025
转载 Python Scrapy爬虫框架学习
一、Scrapy框架简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展...
2018-08-28 20:38:52
349
原创 selenium 豆瓣登录
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...
2018-08-27 12:00:03
597
原创 爬取mzitu图 线程 进程
import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): # print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_u...
2018-08-21 20:22:43
2783
原创 dytt 爬取磁力链接保存mysql
import requests,reimport pymysql# 连接数据库class mysqlhelp(): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='py10',...
2018-08-19 23:12:57
5277
原创 链家 xpath
调用封装mysql 保存链家前三页import requests,refrom lxml import etreeimport mysqlhelpbase_url = 'https://bj.lianjia.com/zufang/pg%srp1/'myhelp = mysqlhelp.mysql_conn()sql = 'INSERT INTO lianjia (titl...
2018-08-17 21:22:53
358
原创 今日头条 json 街拍 baocun
import reimport requestsimport jsonimport osfrom urllib import requesturl = 'https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&a...
2018-08-16 22:47:35
403
原创 雪球网 json 获取
import jsonfrom urllib import request# 因为不能访问 所以要加个头headers = { # 'Accept':' */*', # 'Accept-Language':' zh-CN,zh;q=0.9', # 'Connection':' keep-alive', 'Cookie':' device_id=77fe07...
2018-08-15 22:22:19
1487
原创 pymysql 封装类 保存
import pymysql #导入数据库包class mysql_conn(object): # mysql_conn 主要的功能是,将谅解数据库的操作变成只连接一次 # 魔术方法, 初始化, 构建函数 def __init__(self): # 初始化 # 创建连接 db相当于mysql的连接 self.db ...
2018-08-15 21:12:07
1560
原创 封装cookie 拓展
from urllib import request,parsefrom urllib.error import HTTPError, URLError# 用来保存cookiefrom http import cookiejar #cookie类的包class session(object): def __init__(self): # 通过对象来保存co...
2018-08-14 22:37:13
247
原创 人人网 cookie 保存
from day1.tuozhan_all import post,get #导入post,getimport jsonfrom urllib import request, parse# 用来保存cookiefrom http import cookiejar #cookie类的包# 通过对象来保存cookiecookie_object = cookiejar.Cooki...
2018-08-14 21:44:13
214
原创 post get 两种方法
from urllib import request,parsefrom urllib.error import HTTPError, URLError# a. 定义一个get函数 get(url,headers=None)def get(url,headers=None): return urlrequests(url,headers=headers) #内部可以调用url...
2018-08-14 08:39:37
292
原创 session和cookie的区别,他们都是什么
HTTP协议引入了cookie和session这两个概念cookie是服务器传递到浏览器,保存在浏览器中的数据,然后浏览器每次请求都带上cookie,这样就可以标识用哪一个用户发起的请求, 比如说把用户登录的用户名和密码保存在cookie中, 只要cookie没有过期,以后用户每次登录都可以自动登录了,不需要在此输入用户名和密码, 因为浏览器在发起请求的时候已经把cookie中的用户名和密码传...
2018-08-13 20:14:58
160
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人