
爬虫
zl1zl2zl3
这个作者很懒,什么都没留下…
展开
-
手把手教你搭建一个基于Java的分布式爬虫系统
简介:在不用爬虫框架的情况下,我经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似 MySQL、HBase 等。因为此系统基于面向接口的编码思想来开发,所以具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想。虽然代码目前来说很多地方还是比较紧耦合,但只要花些时间和精力,很多都是可抽取出来并且可配置化的。因为时间的关系,我只写了京东和苏宁易购两个网站的爬虫,但是完全可以实现不同网站爬虫的随机调度,基于其代码结构,再写国美、天猫等的商品爬取,难.转载 2020-07-03 21:04:02 · 1133 阅读 · 0 评论 -
基于 Spring Cloud 开发的分布式系统,遇到爬虫、接口盗刷怎么办?
kk-anti-reptile是,适用于基于spring-boot开发的分布式系统的反爬虫组件。系统要求 基于spring-boot开发(spring-boot1.x, spring-boot2.x均可) 需要使用redis 工作流程kk-anti-reptile使用基于Servlet规范的的Filter对请求进行过滤,在其内部通过spring-boot的扩展点机制,实例化一个Filter,并注入到Spring容器FilterRegistrationBean中,通过S...转载 2020-06-06 14:32:26 · 394 阅读 · 0 评论 -
中国爬虫违法违规案例汇总
最近在 GitHub 发现了一个仓库,这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。GitHub 地址:https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China该库初衷是为了帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免触碰数据合规红线。目前收纳了违法爬虫四类共 9 个...转载 2020-01-02 09:38:01 · 1599 阅读 · 0 评论 -
用Python爬网页需要了解什么背景知识
在知乎上有一位同学提出的问题:用Python爬网页需要了解什么背景知识,恰好我对爬虫有所了解,所以昨天晚上做了回答,今天放到公众号上面希望对大家有所帮助,如有帮助欢迎转发。文中涉及到一些教程链接在本篇文章无法打开,可以点击阅读原文查看我在知乎上的原回答,也欢迎大家给我的回答点赞。要学会使用Python爬取网页信息无外乎以下几点内容:1、要会Python2、知道网页信息如何呈现3、了...转载 2019-04-27 10:37:03 · 404 阅读 · 1 评论 -
技术深扒丨没点想象力都看不透这个网站的反爬措施!
所谓万物皆可爬,写一段Python代码,就能让程序自动进行网站访问、解析数据并保存下来,再进行下一步分析,这是一项很酷的技能。当然各网站也有自己的反爬方式,比如判断用户IP在短时间内是否频繁访问对应网站,比如通过动态页面增加爬取的难度等。某点评网的反爬可以说是非常有创意了,它使用svg和乱码来防止被爬。难爬不说,就算拿到数据,使用者也不知道是什么意思。点评网的文字甚至都是不能复制粘...转载 2019-03-19 14:41:19 · 576 阅读 · 0 评论 -
程序员的一个爬虫,把估值175亿的马蜂窝给捅了
10月21日,一篇名为《估值175亿的马蜂窝,竟是一座僵尸和水军构成的鬼城?》火了!直指旅游网站马蜂窝大量内容和评论涉嫌造假。事情是这样的:某数据团队的几个同学回国参加创业大赛,吃外卖拉了肚子,就在平台写了一段差评,结果反而被污蔑诋毁。碰巧这个团队在美国学的都是数据分析,一怒之下决定训练一个模型,用于筛选餐饮评论的水军,恰巧马蜂窝成了他们的练手对象,没想到不爬则矣,一爬把马蜂窝给捅...转载 2018-12-02 13:40:39 · 4729 阅读 · 0 评论 -
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:import urllib2enable_proxy = Truep...转载 2018-10-20 12:29:40 · 232 阅读 · 0 评论 -
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用
更好的学习网址:http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info...转载 2018-10-20 12:25:58 · 205 阅读 · 0 评论 -
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产...转载 2018-10-20 12:24:11 · 475 阅读 · 0 评论 -
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform ...转载 2018-10-20 12:21:45 · 287 阅读 · 0 评论 -
[Python]网络爬虫(一):抓取网页的含义和URL基本构成
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个...转载 2018-10-20 12:19:30 · 408 阅读 · 0 评论 -
关于反爬虫,看这一篇就够了
编者:本文为携程酒店研发部研发经理崔广宇在携程技术微分享中的分享内容。【携程技术微分享】是携程技术中心推出的线上公开分享课程,每月1-2期,采用目前最火热的直播形式,邀请携程技术人,面向广大程序猿和技术爱好者,一起探讨最新的技术热点,分享一线实战经验,畅谈精彩技术人生,搭建一个线上的技术分享社区。崔广宇,携程酒店研发部研发经理。80后前端工程师,曾经在人人网横行的时候,通过注入js代码来刷...转载 2017-05-25 17:26:29 · 1097 阅读 · 0 评论 -
Python2爬虫学习系列教程
http://cuiqingcai.com/1052.html大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。一、Python入门1. Python爬虫入门一之综述2. Python爬...转载 2018-08-21 16:28:08 · 378 阅读 · 0 评论 -
python 对指定URL获取其子链接
仿照http://blog.youkuaiyun.com/lming_08/article/details/44710779里面的方法, 获取指定URL 的所需的子链接及其描述.#!/usr/bin/python# -*- coding: utf-8 -*-import sysimport urllib2import re if len(sys.argv) != 2: print "%s ...转载 2018-08-22 11:28:29 · 2074 阅读 · 0 评论