幸运的felix-优快云博客

原创约会网 scrapy-spider

# -*- coding: utf-8 -*- import scrapy import jsonpath import json from ..items import YuehuiItem class YuehuiSpider(scrapy.Spider): name = 'yuehui' allowed_domains = ['163.com'] start_u...

2019-05-14 21:06:43 209

原创 urllib/request爬取百度贴吧图片

import re from urllib import request,parse import os # 突破下载函数 def download(img_html): # 正则匹配图片url img_url = re.findall('<img class="BDE_Image" src="(.*?)"',img_html,re.S) # print(img_u...

2019-01-10 16:36:59 403

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import re from w3lib.html import remove_tags class WeiboSpider(scrapy.Spid...

2018-09-19 17:09:10 273

原创多线程和多进程

多进程是立体交通系统，虽然造价高，上坡下坡多耗点油，但是不堵车。多线程是平面交通系统，造价低，但红绿灯太多，老堵车。 (1)一个线程只能属于一个进程，而一个进程可以有多个线程，但至少有一个线程。 (2)资源分配给进程，同一进程的所有线程共享该进程的所有资源。...

2018-08-20 22:54:39 179

原创 python爬取社会招聘保存mysql

import requests from lxml import etree import pymysql headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36...

2018-08-20 00:30:12 315

原创 python爬取阳光电影保存mysql

import requests from lxml import etree import re import pymysql # 定义url headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396...

2018-08-20 00:29:09 374

原创 python爬取安居客保存mysql

import requests from lxml import etree import pymysql url = 'https://bj.zu.anjuke.com/fangyuan/huilongguan/p{}/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.3...

2018-08-20 00:27:43 752

原创 Python爬取toutiao图片保存到本地

import re import requests import json import os from urllib import request url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E7%BE%8E%E5%9B%BE&autoload=true&a...

2018-08-16 22:22:08 880

原创 python获取xueqiu数据并保存mysql

from urllib import request import json import pymysql headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',...

2018-08-16 00:33:43 511

原创 form表单登陆人人网

import json from urllib import request,parse from http import cookiejar # 创建cookie对象 cookie = cookiejar.CookieJar() # cookie操作 handler = request.HTTPCookieProcessor(cookie) # 实例化cookie opener = reques...

2018-08-14 20:50:22 2225

原创 Python的post和get请求封装

from urllib import request,parse from urllib.error import HTTPError, URLError # 定义函数，form传参为post，不传参为get def urlrequests(url,form=None,headers=None): # 定义默认headers，如果不传参就用默认的，传参就替换默认的。 if hea...

2018-08-13 22:29:52 1969

weixin_42960052的博客