- 博客(19)
- 资源 (1)
- 收藏
- 关注
转载 python爬虫入门笔记
Python爬虫入门概念:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 Python爬虫入门之Urllib库的
2017-02-25 19:34:55
584
转载 python爬虫学习系列教程
转自 http://cuiqingcai.com/1052.htmlPython版本:2.7 目录的链接请看原文http://cuiqingcai.com/1052.html 一、爬虫入门Python爬虫入门一之综述Python爬虫入门二之爬虫基础了解Python爬虫入门三之Urllib库的基本使用Python爬虫入门四之Urllib库的高级用法Python爬虫入门五之URLErro
2017-02-25 14:50:38
920
原创 网站爬虫
网络爬虫 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待抓取URL队列; 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外
2017-02-24 08:49:11
521
原创 初涉spark RDD
一、RDD概念 RDD,全称为Resilient Distributed Datasets(弹性分布式数据集),是一个容错的、并行的数据结构(不变的),可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。它解决MapReduce采用非循环式(迭代计算式需进行大量的磁盘IO操作)的数据流模型的缺点。 (Spark涉及的核心:内存计算。RDD解决迭代计算的问题) RDD作用:解决迭代计
2017-02-24 08:48:14
348
转载 SSRF漏洞的挖掘经验(转)
SSRF概述SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。一般情况下,SSRF攻击的目标是从外网无法访问的内部系统。(正是因为它是由服务端发起的,所以它能够请求到与它相连而与外网隔离的内部系统)SSRF 形成的原因大都是由于服务端提供了从其他服务器应用获取数据的功能且没有对目标地址做过滤与限制。比如从指定U
2017-01-06 11:07:20
662
原创 白帽子讲web安全之3
看到xss章节,很多还是不太懂的,还需要再继续学习javascript等相关的知识,推荐学习网站http://www.w3cschool.cn/,下面的知识点是主要是之前看到过的内容,并附上自己的小实战xss类型 1. 反射型 2. 存储型 3. DOM Based型 原理: 注:上图来自http://yttitan.blog.51cto.com/70821/1571910实战例
2016-12-25 18:48:57
360
原创 开启博客之路
之前阅读过的书籍未很好的进行管理,归纳,偶尔简单的做下笔记,但总觉得不成体系,肚子里货不够,需不断的学习新的知识,希望能一直坚持下来!
2016-12-23 21:39:16
319
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人