- 博客(17)
- 收藏
- 关注
原创 2020-07-19
import timefrom lxml import etreefrom selenium import webdriverdriver_path = r"C:\ChromeDriver\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)base_url="https://www.amazon.com""""option = webdriver.ChromeOptions()option.add_argument
2020-07-19 18:37:10
186
原创 Scrapy加Selenium爬取简书
爬虫主体:# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom js_spi.items import ArticleItemclass JsSpider(CrawlSpid...
2020-03-21 17:17:14
482
3
原创 scrapy爬取汽车之家图片之pipeline方法进阶
一:不利用scrapy自带的下载图片的方法爬虫主体:# -*- coding: utf-8 -*-import scrapyfrom car_spi.items import CarSpiItemclass CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['"car.autohome.com.cn"'...
2020-03-19 14:33:58
450
原创 拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息
拉勾网爬虫之利用selenium控制谷歌浏览器爬取职位信息import timefrom lxml import etreefrom selenium import webdriverJOB_LIST = []class Lagou_Spider(object): driver_path = r"C:\ChromeDriver\chromedriver.exe" ...
2020-03-16 12:25:43
325
原创 python多线程模式爬取表情包并根据类别放入对应文件夹
总共爬取了前一百页,耗时大概有四五分钟import requestsimport reimport urllibimport osimport threadingfrom queue import QueuegLock = threading.Lock()HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W...
2020-03-14 14:46:11
221
原创 普通模式与多线程模式之爬取斗图拉网表情对比
普通模式:import requestsimport reimport urllibimport osHEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537...
2020-03-14 14:36:04
119
原创 消费者与生产者多线程之thread下Lock与Condition对比
Lock版本:import threadingimport randomimport timegLock = threading.Lock()ALL_MONEY = 1000TIME_COUNT = 0class producer(threading.Thread): def run(self): global ALL_MONEY glo...
2020-03-14 14:33:30
152
原创 正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词
正则表达式初次练习之python爬取古诗词网推荐十页所有古诗词import requestsimport reHEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/5...
2020-03-12 21:28:46
338
原创 python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出
python爬取中国天气网所有城市的最低气温并抽取前十利用matlab进行可视化输出`import requestsimport lxmlfrom bs4 import BeautifulSoupimport pandas as pdimport matplotlib.pyplot as plturl1 = 'http://www.weather.com.cn/textFC/hb.s...
2020-03-12 13:54:26
720
原创 我的第一个爬取多页式的python小程序之爬取电影天堂最新电影前七页所有电影的详情页
爬取了电影天堂最新电影里面的前七页所有电影的详情页面,并逐条写入到excelimport requestsfrom lxml import etreeimport pandas as pdurl = 'https://www.dytt8.net/html/gndy/dyzz/index.html'HEADERS = { 'User-Agent': 'Mozilla/5.0 (W...
2020-03-11 14:10:32
10240
原创 我的第一个爬虫小程序之利用requests和lxml库爬取豆瓣电影新片top10
利用requests和lxml库爬取豆瓣电影新片top10,并写入txt文档中代码部分:import requestsfrom lxml import etree# parser = etree.HTMLParser('encoding = utf-8')# html = etree.parse('tencent.html',parser=parser)# # 1.获取所有的tr标签...
2020-03-10 16:28:28
721
原创 python内置库urllib的爬虫基本使用
1.POST请求from urllib import request, parseheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36" , "R...
2020-03-09 21:35:19
182
原创 requests库的一些基本的使用方法
requests库的一些基本使用方法,供自己日后使用备查`import requests# get请求url = "http://www.baidu.com/s"params = {'wd':''}headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li...
2020-03-09 21:28:06
333
原创 利用pandas进行基础的excel数据分析操作
利用excel进行基础的excel数据分析,代码供自己日后学习及复查备用import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import linregressimport seaborn as snsstudents = pd.read_excel("./studen...
2020-03-07 17:24:52
444
原创 pandas进行excel数据的基础填充
涉及到一个月数满12年数进一的算法import osimport pandas as pdfrom datetime import date,timedeltadef add_month(d,md): yd = md // 12 m = d.month + md % 12 if m != 12: yd += m // 12 m = ...
2020-03-06 16:31:13
293
原创 使用pandas进行基础的图表的绘制
利用pandas进行图表的基础的绘制,以下是根据课程学习的代码部分。供自己日后学习备查。import pandasimport matplotlib.pyplot as pltbooks = pandas.read_excel("./15天父商品流量.xlsx",index_col="序列")books["订单商品数量转化率"] = books["已订购商品数量"]/books["买家...
2020-03-06 16:28:57
386
原创 pygame小游戏飞机大战
我的第一个临摹python小游戏代码学习完python基础的第一个阶段,以下是跟随课程练习的第一个python游戏代码。供自己阅读以及理解消化。主程序代码块import pygamefrom plane_sprite import *# 屏幕大小的常量SCREEN_RECT = pygame.Rect(0, 0, 480, 700)# 刷新的帧率FRAME_PER_SEC = 6...
2020-02-26 17:30:55
372
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人