derrick_lh-优快云博客

原创 2020-07-19

import time from lxml import etreefrom selenium import webdriverdriver_path = r"C:\ChromeDriver\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)base_url="https://www.amazon.com""""option = webdriver.ChromeOptions()option.add_argument

2020-07-19 18:37:10 210

原创 Scrapy加Selenium爬取简书

爬虫主体： # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from js_spi.items import ArticleItem class JsSpider(CrawlSpid...

2020-03-21 17:17:14 532 3

原创 scrapy爬取汽车之家图片之pipeline方法进阶

一：不利用scrapy自带的下载图片的方法爬虫主体： # -*- coding: utf-8 -*- import scrapy from car_spi.items import CarSpiItem class CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['"car.autohome.com.cn"'...

2020-03-19 14:33:58 483

原创拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息

拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息 import time from lxml import etree from selenium import webdriver JOB_LIST = [] class Lagou_Spider(object): driver_path = r"C:\ChromeDriver\chromedriver.exe" ...

2020-03-16 12:25:43 351

原创 python多线程模式爬取表情包并根据类别放入对应文件夹

总共爬取了前一百页，耗时大概有四五分钟 import requests import re import urllib import os import threading from queue import Queue gLock = threading.Lock() HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W...

2020-03-14 14:46:11 252

原创普通模式与多线程模式之爬取斗图拉网表情对比

普通模式： import requests import re import urllib import os HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537...

2020-03-14 14:36:04 137

原创消费者与生产者多线程之thread下Lock与Condition对比

Lock版本： import threading import random import time gLock = threading.Lock() ALL_MONEY = 1000 TIME_COUNT = 0 class producer(threading.Thread): def run(self): global ALL_MONEY glo...

2020-03-14 14:33:30 173

原创正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词

正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词 import requests import re HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/5...

2020-03-12 21:28:46 366

原创 python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出

python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出` import requests import lxml from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt url1 = 'http://www.weather.com.cn/textFC/hb.s...

2020-03-12 13:54:26 747

原创我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页

爬取了电影天堂最新电影里面的前七页所有电影的详情页面，并逐条写入到excel import requests from lxml import etree import pandas as pd url = 'https://www.dytt8.net/html/gndy/dyzz/index.html' HEADERS = { 'User-Agent': 'Mozilla/5.0 (W...

2020-03-11 14:10:32 10335

原创我的第一个爬虫小程序之利用requests和lxml库爬取豆瓣电影新片top10

利用requests和lxml库爬取豆瓣电影新片top10,并写入txt文档中代码部分： import requests from lxml import etree # parser = etree.HTMLParser('encoding = utf-8') # html = etree.parse('tencent.html',parser=parser) # # 1.获取所有的tr标签...

2020-03-10 16:28:28 757

原创 python内置库urllib的爬虫基本使用

1.POST请求 from urllib import request, parse headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36" , "R...

2020-03-09 21:35:19 218

原创 requests库的一些基本的使用方法

requests库的一些基本使用方法，供自己日后使用备查` import requests # get请求 url = "http://www.baidu.com/s" params = {'wd':''} headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...

2020-03-09 21:28:06 365

原创利用pandas进行基础的excel数据分析操作

利用excel进行基础的excel数据分析，代码供自己日后学习及复查备用 import pandas as pd import numpy as np import matplotlib.pyplot as plt from scipy.stats import linregress import seaborn as sns students = pd.read_excel("./studen...

2020-03-07 17:24:52 476

原创 pandas进行excel数据的基础填充

涉及到一个月数满12年数进一的算法 import os import pandas as pd from datetime import date,timedelta def add_month(d,md): yd = md // 12 m = d.month + md % 12 if m != 12: yd += m // 12 m = ...

2020-03-06 16:31:13 324

原创使用pandas进行基础的图表的绘制

利用pandas进行图表的基础的绘制，以下是根据课程学习的代码部分。供自己日后学习备查。 import pandas import matplotlib.pyplot as plt books = pandas.read_excel("./15天父商品流量.xlsx",index_col="序列") books["订单商品数量转化率"] = books["已订购商品数量"]/books["买家...

2020-03-06 16:28:57 406

原创 pygame小游戏飞机大战

我的第一个临摹python小游戏代码学习完python基础的第一个阶段，以下是跟随课程练习的第一个python游戏代码。供自己阅读以及理解消化。主程序代码块 import pygame from plane_sprite import * # 屏幕大小的常量 SCREEN_RECT = pygame.Rect(0, 0, 480, 700) # 刷新的帧率 FRAME_PER_SEC = 6...

2020-02-26 17:30:55 400

derrick_lh的博客