- 博客(7)
- 收藏
- 关注
原创 牛客SQL实战—数据分析必备技能
1、查找最晚入职员工的所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NOT NULL,`hire_...
2019-07-31 20:09:52
377
原创 pyspider爬取豆瓣延禧攻略短评和回应
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-08-30 15:08:10# Project: yanxigonglve_doubanfrom pyspider.libs.base_handler import *from lxml import etreeclass Handler(BaseHan...
2018-08-31 09:52:05
554
1
原创 pyspider爬取统计局统计动态
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-05-28 10:33:42# Project: tongjijufrom pyspider.libs.base_handler import *from lxml import etreeclass Handler(BaseHandler): crawl_conf...
2018-05-28 11:24:54
466
原创 构造表单模拟登陆GitHub
1、输入登陆网址:url = https://github.com/login?return_to=%2Fjoin输入注册过的账号密码,登陆成功之后,查看post请求的session,查看需要提交的formdata表单,然后构造字典数据。2、观察发现除了authenticity_token之外,别的可以直接构造字典,authenticity_token这个比较复杂,查看源代码发现在一个hidden...
2018-04-23 13:16:00
437
原创 python爬虫:爬取豆瓣图书保存为json格式
# -*-coding:utf-8-*-import requestsimport refrom lxml import etreeimport json# 每本书的所有信息都是从详情页面获取# 定义一个大列表,保存字典数据,每一个字典都满足json格式,# 但是组合在一起之后需要用列表来保存才满足json格式allbks = []for i in range(0, 7): ...
2018-04-23 11:22:56
1285
原创 Python爬虫:抓取智联岗位信息保存csv
from urllib.parse import urlencodeimport requestsimport reimport csvfrom tqdm import tqdmfrom lxml import etree# 获取一页的HTMldef get_one_page(city, keyword, region, page): params = { ...
2018-04-23 10:59:15
924
原创 Python爬取豆瓣影评
import urllib.requestimport requestsfrom lxml import etreefrom pyquery import PyQuery as pqimport jsonheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...
2018-04-17 12:38:51
556
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅