
python爬虫
记录python爬虫的学习过程,分享一些有趣的spider
TamoR.
一个迷茫的迫切想入行的有志青年
展开
-
爬虫最强ip代理池设置,三家免费ip共享王网站资源
import requestsfrom lxml import etreeimport threadingfrom queue import Queuethreads=[]headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...原创 2019-12-30 19:08:30 · 1403 阅读 · 0 评论 -
scrapy框架爬取虎牙直播有关信息
主程序hy.py:# -*- coding: utf-8 -*-import scrapyfrom ..items import sortItem,gameInfo,gameSonSort,houseInfofrom scrapy import Requestimport refrom time import sleepclass HySpider(scrapy.Spider):...原创 2019-12-15 22:57:47 · 394 阅读 · 0 评论 -
scrapy爬虫爬取新片场信息
# -*- coding: utf-8 -*-import scrapyimport refrom scrapy import Requestimport jsondef convert(s): if s is str and s.isdigit: return int(s.resplace(',')) else: return 0c...原创 2019-12-04 09:07:08 · 541 阅读 · 0 评论 -
多线程抓取英雄联盟全皮肤并保存
import requestsimport threadingfrom queue import Queuefrom lxml import etreeimport timeimport wgetimport osurlQueue=Queue()#链接队列threads_num=100 #线程数threads=[]urList=[]skin=[]def getUrl...原创 2019-12-01 10:12:05 · 182 阅读 · 0 评论 -
学习爬虫第一天笔记
第二章:BeautifulSoup的使用下行遍历:.contents:子节点的列表.children:子节点的迭代类型,循环遍历儿子节点。.descendants:子孙节点的迭代类型,循环遍历子孙节点上行遍历:.parent:节点的父亲标签.parents:节点的先辈标签的迭代类型,用于循环遍历先辈节点平行遍历:.next_sibing:返回以HTML顺序的下一个平行节点.pr...原创 2019-11-28 18:02:39 · 161 阅读 · 0 评论 -
最好大学网爬取大学排名源码
import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text...原创 2019-11-28 12:11:16 · 311 阅读 · 1 评论 -
python requests、xpasth爬虫使用代理IP池爬取博客,增加浏览量
一篇煎蛋的python爬虫,爬取优快云文章,借助免费的代理IP网站,分析出IP地址,使用代理IP访问,阔以去玩一下import osimport timeimport randomimport requestsfrom lxml import etree#准备部分#1.headersheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10...原创 2019-07-28 18:09:18 · 615 阅读 · 5 评论