
爬虫
赵玉~想要一个定所
一个前面20年浑浑噩噩的人,突然有天睡醒了,然后跳进了这个坑。一个大学莫名其妙学汽检的人,没拧过一个螺丝,没修过一辆车,毕业了倒是改了一堆Bug。一个无聊的人。。。比如现在。。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫——Scrapy-Redis分布式爬虫实现,并将数据写入MySQL数据库
首先在Settings文件中配置redis数据库# 启动Scrapy-Redis去重过滤器,取消Scrapy的去重功能DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 启用Scrapy-Redis的调度器,取消Scrapy的调度器SCHEDULER = "scrapy_redis.scheduler.Schedule...原创 2020-04-10 14:33:59 · 1065 阅读 · 0 评论 -
python爬虫——scrapy爬取必联网项目信息,并保存在MySQL中
首先设置setting.py的配置:# -*- coding: utf-8 -*-import scrapyimport refrom copy import deepcopyclass BilianSpider(scrapy.Spider): name = 'bilian' allowed_domains = ['ebnew.com','ss.ebnew.c...原创 2020-04-08 21:45:28 · 679 阅读 · 0 评论 -
python爬虫——Scrapy爬取博客数据
新建一个Scrapy文件:# -*- coding: utf-8 -*-import scrapyclass CsdnBlogSpider(scrapy.Spider): name = 'csdn_blog' allowed_domains = ['blog.youkuaiyun.com'] keyword = 'another' def start_reques...原创 2020-04-07 09:36:00 · 569 阅读 · 0 评论 -
python爬虫——scrapy框架,创建一个scrapy文件,以及DownloaderMiddleware,pipelines的配置使用
写个小应用,记得把settings里面的改成FlaseROBOTSTXT_OBEY = False# -*- coding: utf-8 -*-import scrapyclass SiSpider(scrapy.Spider): #文件的名字 要和这个name值对应 name = 'si' allowed_domains = [...原创 2020-04-05 17:55:40 · 249 阅读 · 0 评论 -
python爬虫——IP代理
首先我们要买代理IP,最好是1分钟1换的import urllib.request as ur#这里就是买的IP,反馈的地址proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().dec...原创 2020-03-31 20:34:46 · 469 阅读 · 0 评论 -
python爬虫——Request对象之Header伪装策略
一个包含多个浏览器的Header,可以使用这个随机获取。import random# pc端的user-agentuser_agent_pc = [ # 谷歌 'Mozilla/5.0.html (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.html.2171.71 ...原创 2020-03-31 20:30:14 · 1562 阅读 · 0 评论 -
python爬虫——Request之get请求和post请求
Get请求:#引用模块import urllib.request as ur#创建Request对象request = ur.Request('https://edu.youkuaiyun.com/')#读取response = ur.urlopen(request).read()print(response)#粘贴过来的百度贴吧英雄联盟吧#url='https://tie...原创 2020-03-29 23:40:39 · 1860 阅读 · 0 评论 -
python爬虫——jsonpath
简单的python数据与惊悚的转换import jsonpython_data = [ { 'username': 'name1', 'vip': True, }, { 'username': None, 'vip': False, ...原创 2020-03-27 21:18:51 · 312 阅读 · 0 评论 -
python爬虫基础——数据提取与清洗之正则表达式
复习正则表达式:# ?尽可能少的匹配,在上面的案列中,当匹配到第一个div就结束匹配。?关闭贪婪假设这里有一个HTML文件:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Ti...原创 2020-03-27 16:33:11 · 844 阅读 · 0 评论 -
python爬虫基础——xpatn
在网页上查看,测试使用,可以下载一个xpathhelper一级分类: //h3[@class="classify_c_h3"]/a/text()二级分类: //div[@class="classify_list"]/span/a/text() //div[contains(@class,"classify_list")]/span...原创 2020-03-27 16:35:28 · 4063 阅读 · 0 评论