- 博客(17)
- 收藏
- 关注
原创 2020-07-19
import time from lxml import etreefrom selenium import webdriverdriver_path = r"C:\ChromeDriver\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)base_url="https://www.amazon.com""""option = webdriver.ChromeOptions()option.add_argument
2020-07-19 18:37:10
210
原创 Scrapy加Selenium爬取简书
爬虫主体: # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from js_spi.items import ArticleItem class JsSpider(CrawlSpid...
2020-03-21 17:17:14
532
3
原创 scrapy爬取汽车之家图片之pipeline方法进阶
一:不利用scrapy自带的下载图片的方法 爬虫主体: # -*- coding: utf-8 -*- import scrapy from car_spi.items import CarSpiItem class CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['"car.autohome.com.cn"'...
2020-03-19 14:33:58
483
原创 拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息
拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息 import time from lxml import etree from selenium import webdriver JOB_LIST = [] class Lagou_Spider(object): driver_path = r"C:\ChromeDriver\chromedriver.exe" ...
2020-03-16 12:25:43
351
原创 python多线程模式爬取表情包并根据类别放入对应文件夹
总共爬取了前一百页,耗时大概有四五分钟 import requests import re import urllib import os import threading from queue import Queue gLock = threading.Lock() HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W...
2020-03-14 14:46:11
252
原创 普通模式与多线程模式之爬取斗图拉网表情对比
普通模式: import requests import re import urllib import os HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537...
2020-03-14 14:36:04
137
原创 消费者与生产者多线程之thread下Lock与Condition对比
Lock版本: import threading import random import time gLock = threading.Lock() ALL_MONEY = 1000 TIME_COUNT = 0 class producer(threading.Thread): def run(self): global ALL_MONEY glo...
2020-03-14 14:33:30
173
原创 正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词
正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词 import requests import re HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/5...
2020-03-12 21:28:46
366
原创 python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出
python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出` import requests import lxml from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt url1 = 'http://www.weather.com.cn/textFC/hb.s...
2020-03-12 13:54:26
747
原创 我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页
爬取了电影天堂最新电影里面的前七页所有电影的详情页面,并逐条写入到excel import requests from lxml import etree import pandas as pd url = 'https://www.dytt8.net/html/gndy/dyzz/index.html' HEADERS = { 'User-Agent': 'Mozilla/5.0 (W...
2020-03-11 14:10:32
10335
原创 我的第一个爬虫小程序之利用requests和lxml库爬取豆瓣电影新片top10
利用requests和lxml库爬取豆瓣电影新片top10,并写入txt文档中 代码部分: import requests from lxml import etree # parser = etree.HTMLParser('encoding = utf-8') # html = etree.parse('tencent.html',parser=parser) # # 1.获取所有的tr标签...
2020-03-10 16:28:28
757
原创 python内置库urllib的爬虫基本使用
1.POST请求 from urllib import request, parse headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36" , "R...
2020-03-09 21:35:19
218
原创 requests库的一些基本的使用方法
requests库的一些基本使用方法,供自己日后使用备查` import requests # get请求 url = "http://www.baidu.com/s" params = {'wd':''} headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...
2020-03-09 21:28:06
365
原创 利用pandas进行基础的excel数据分析操作
利用excel进行基础的excel数据分析,代码供自己日后学习及复查备用 import pandas as pd import numpy as np import matplotlib.pyplot as plt from scipy.stats import linregress import seaborn as sns students = pd.read_excel("./studen...
2020-03-07 17:24:52
476
原创 pandas进行excel数据的基础填充
涉及到一个月数满12年数进一的算法 import os import pandas as pd from datetime import date,timedelta def add_month(d,md): yd = md // 12 m = d.month + md % 12 if m != 12: yd += m // 12 m = ...
2020-03-06 16:31:13
324
原创 使用pandas进行基础的图表的绘制
利用pandas进行图表的基础的绘制,以下是根据课程学习的代码部分。供自己日后学习备查。 import pandas import matplotlib.pyplot as plt books = pandas.read_excel("./15天父商品流量.xlsx",index_col="序列") books["订单商品数量转化率"] = books["已订购商品数量"]/books["买家...
2020-03-06 16:28:57
406
原创 pygame小游戏飞机大战
我的第一个临摹python小游戏代码 学习完python基础的第一个阶段,以下是跟随课程练习的第一个python游戏代码。供自己阅读以及理解消化。 主程序代码块 import pygame from plane_sprite import * # 屏幕大小的常量 SCREEN_RECT = pygame.Rect(0, 0, 480, 700) # 刷新的帧率 FRAME_PER_SEC = 6...
2020-02-26 17:30:55
400
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅