
爬虫
JBlock
个人博客:https://www.fuzzer.xyz
展开
-
爬虫编写之前奏
今天我先用几个问题的形式来介绍下爬虫,然后介绍下我们写爬虫之前所需要做的准备,希望能对大家有所帮助,也希望能帮助初学者入门爬虫学习。爬虫是什么?这可能大多初学者的疑问,但这个问题其实不难回答。因为它与我们生活密切相关。比如:百度其实就是一个“大爬虫”。互动百科对爬虫的定义如下:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网原创 2017-11-26 11:15:16 · 626 阅读 · 0 评论 -
python 实现维基百科六度分隔原理
在本篇文章中,我将创建一个项目来实现维基百科六度分隔理论的查找方法。也就说,我们要实现从埃里克,艾德尔的词条页面(http://en.wikipedia.org/wiki/Eric_Idle)开始,经过最少的链接点击次数找到凯文.贝肯的词条页面(http://en.wikipedia.org/wiki/)。简单的来说,就是实现把两个不相干的主题,用总数不超过六条的主题链接起来。(包括原来的两个)。原创 2018-02-01 13:56:23 · 1471 阅读 · 0 评论 -
Python的提交表单功能
当你在数据采集做爬虫的时候,我们都要用到HTTP协议的GET方法和POST方法。今天我们暂且介绍一下POST方法。也就是把信息推送到网络服务器进行存储和分析。 页面表单基本可以看成一种用户提交POST请求的方式,且这种请求方式是服务器能够理解的,而POST方法一般都被用来认证。正如网站的URL链接可以帮助用户提交GET请求一样,HTML表单可以帮助用户提交POST请求。在python中,...原创 2018-02-10 12:02:29 · 12096 阅读 · 0 评论 -
利用百度API实现文字识别
简介将图片上文字识别出来,是一件非常有意思的事,而这样技术的实现,同样有助于我们实现图片验证码的识别,将图像翻译成文字一般成为光学文字识别(Optical Character Recognition, OCR)。可以实现OCR的底层库并不多,目前很多库都是使用共同的几个底层OCR库,或者是在上面进行定制。一些人是通过机器学习的方法,自己进行训练来实现识别,但那样识别率不高,并且也较为繁琐,今天我们...原创 2018-02-12 18:24:37 · 30253 阅读 · 7 评论 -
利用Fiddler抓取手机App的请求及功能简介
Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的"进出"Fiddler的数据(指cookie,html,js,css等文件,这些都可以让你胡乱修改的意思)。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。它不仅可以抓取你电脑上的请求,同样也可以抓取手机App上的请求。...原创 2018-02-15 21:05:02 · 7814 阅读 · 0 评论