
爬虫
文章平均质量分 88
qq_39043100
这个作者很懒,什么都没留下…
展开
-
爬取json
import urllib.request,json,randomhead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0', 'Opera/9.80 (Win...原创 2019-12-31 10:57:39 · 319 阅读 · 0 评论 -
爬取多页数据存储在execl里面
import urllib.requestimport randomfrom lxml import etreeimport xlwtimport oshead =['Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3...原创 2019-12-27 13:25:43 · 562 阅读 · 1 评论 -
pyhton3装饰器
# -*- coding:gbk -*-'''使用内嵌包装函数来确保每次新函数都被调用,内嵌包装函数的形参和返回值与原函数相同,装饰函数返回内嵌包装函数对象'''def deco(func): def hanshu(): print("before myfunc() called.") func() print(" after myf...原创 2019-12-26 17:33:48 · 150 阅读 · 0 评论 -
selenium 页面嵌套页面和切换浏览器页面
from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...原创 2019-12-26 10:48:28 · 1851 阅读 · 0 评论 -
Selenium下面使用css和xpath
from selenium import webdriver #从这个selenium导入web的引擎或者接口import timeduixiang = webdriver.Chrome(r'C:\Users\mozat\Desktop\chromedriver_win32\chromedriver.exe')duixiang.implicitly_wait(5)duixiang.get...原创 2019-12-26 10:27:27 · 181 阅读 · 0 评论 -
Selenium模块的操作元素
from selenium import webdriverimport time#创建一个webdriver的对象,指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打...原创 2019-12-25 23:32:53 · 138 阅读 · 0 评论 -
遇到反爬使用Selenium模块
from selenium import webdriver#创建一个webdriver的对象,指明使用chrome浏览器驱动aa = webdriver.Chrome(r'C:\Users\Administrator\Desktop\chromedriver_win32\chromedriver')aa.get('http://www.baidu.com') #打开页面#根据id选择...原创 2019-12-25 21:28:15 · 297 阅读 · 0 评论 -
数据存储在execl表和自动换行和宽高
import xlwtdef write_xlm(): f = xlwt.Workbook() sheet1 = f.add_sheet('学生', cell_overwrite_ok=True) row0 = ["id","姓名", "年龄", "出生日期", "爱好"] colum0 = ["张三", "李四", "恋习", "小明", "小红", "无名"]...原创 2019-12-24 17:14:29 · 250 阅读 · 0 评论 -
爬虫小白抓取实战
接触爬虫差不多一个月,上班时候看视频学习,学了大概五六十个小时样子,代码写的烂,希望别见怪。后期继续努力,以下是我抓取网易云音乐抓取的页面https://music.163.com/#/discover/artist/cat?id=4003&initial=0import urllib.requestimport randomfrom lxml import etreefro...原创 2019-12-24 16:01:25 · 251 阅读 · 0 评论 -
自己写的一个简单爬虫(爬取一本小说)
import urllib.requestimport reimport randomac = [] #放章节地址ua = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Mozi...原创 2019-12-11 13:41:47 · 2560 阅读 · 0 评论 -
各种例子(1)
#爬取百度页面import urllib.requestimport urllib.parsekey = input(‘请出入搜索的关键字:’)url = ‘http://www.baidu.com/s?&’data = {‘wd’:key,“ie”:“utf-8”}data=urllib.parse.urlencode(data)link = url+dataxiangy...原创 2019-12-10 14:28:06 · 115 阅读 · 0 评论 -
urllib.request和urllib.parse解码,urllib.parse.urlencode将字典里面所有的键值转化为query-string格式(key=value&key=value)
import urllib.requestimport urllib.parseurl = ‘http://www.baidu.com/s?wd=海贼王’print(urllib.request.quote(url))print(urllib.parse.quote(url))url1 = ‘https://www.baidu.com/s?wd=%E6%B5%B7%E8%B4%BC%E7...原创 2019-12-10 10:18:25 · 439 阅读 · 0 评论 -
模拟登陆账号爬取深层页面
-- coding: utf-8 --import scrapyfrom scrapy.http import Requestfrom scrapy.http import FormRequest #用来登录模块class ShubenSpider(scrapy.Spider): name = ‘login’ allowed_domains = [‘iqianyue...原创 2019-12-09 13:47:17 · 248 阅读 · 0 评论 -
创建随机的用户代理(User-Agent)和创建随机的IP代理池(使用不同的IP访问)
import urllib.requestimport reimport randomhead = [‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0’,‘Opera/9.80 (Win...原创 2019-12-08 20:05:11 · 613 阅读 · 0 评论 -
伪装浏览器
#浏览器的伪装头部 不伪装的一般出现403报错import urllib.requestdizhi = ‘https://www.youkuaiyun.com/’head = (“User-Agent”,‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safar...原创 2019-12-07 16:22:34 · 926 阅读 · 0 评论 -
get和post请求
#get请求实战—实现百度信息自动搜索import urllib.requestimport rekey = ‘对对对’key = urllib.request.quote(key)print(key) #把对对对转成%E5%AF%B9%E5%AF%B9%E5%AF%B9aa=‘https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=...原创 2019-12-06 18:09:36 · 240 阅读 · 0 评论 -
设置超时时间
超过0.2秒就超时import urllib.requestfor i in range(0,1000): try: file = urllib.request.urlopen(“http://www.rj0904.top”,timeout=0.2) #print(‘成功’) except Exception as er: ...原创 2019-12-06 16:40:38 · 430 阅读 · 0 评论 -
简单的爬虫加上一些六七八糟的东西
import urllib.requestimport refor i in range(1,6): url = ‘http://www.lovehhy.net/Default.aspx?LX=NHDZ&PG=’ url = url+str(i) #data = urllib.request.urlopen(url).read().decode(“utf-...原创 2019-12-06 10:24:25 · 235 阅读 · 0 评论