123jinse-优快云博客

原创牛客SQL实战—数据分析必备技能

1、查找最晚入职员工的所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NOT NULL,`hire_...

2019-07-31 20:09:52 377

原创 pyspider爬取豆瓣延禧攻略短评和回应

#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-08-30 15:08:10# Project: yanxigonglve_doubanfrom pyspider.libs.base_handler import *from lxml import etreeclass Handler(BaseHan...

2018-08-31 09:52:05 554 1

#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-05-28 10:33:42# Project: tongjijufrom pyspider.libs.base_handler import *from lxml import etreeclass Handler(BaseHandler): crawl_conf...

2018-05-28 11:24:54 466

原创构造表单模拟登陆GitHub

1、输入登陆网址：url = https://github.com/login?return_to=%2Fjoin输入注册过的账号密码，登陆成功之后，查看post请求的session，查看需要提交的formdata表单，然后构造字典数据。2、观察发现除了authenticity_token之外，别的可以直接构造字典，authenticity_token这个比较复杂，查看源代码发现在一个hidden...

2018-04-23 13:16:00 437

原创 python爬虫：爬取豆瓣图书保存为json格式

# -*-coding:utf-8-*-import requestsimport refrom lxml import etreeimport json# 每本书的所有信息都是从详情页面获取# 定义一个大列表，保存字典数据，每一个字典都满足json格式，# 但是组合在一起之后需要用列表来保存才满足json格式allbks = []for i in range(0, 7): ...

2018-04-23 11:22:56 1285

原创 Python爬虫：抓取智联岗位信息保存csv

from urllib.parse import urlencodeimport requestsimport reimport csvfrom tqdm import tqdmfrom lxml import etree# 获取一页的HTMldef get_one_page(city, keyword, region, page): params = { ...

2018-04-23 10:59:15 924

原创 Python爬取豆瓣影评

import urllib.requestimport requestsfrom lxml import etreefrom pyquery import PyQuery as pqimport jsonheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...

2018-04-17 12:38:51 556

qq_29541277的博客