
爬虫
文章平均质量分 92
网络爬虫操作,爬取资源,高端操作。
兰舟千帆
分享开源实用的it技术
展开
-
网络爬虫之短信验证
都是自己学到的,害怕忘记,所以要总结一下,让写博客成为一种坚持的信仰。这里你会发现有一点不同电话号码是直接的数字,图片验证码就需要你来处理了,因为我们上文保存的验证码是图片,你如何识别到这图片验证码里面额数据,来进行传入呢?可以看到这是一个注册界面,我们在注册时会被要求需要填写手机号码的·,其实还有一栏验证码识别,像这里打开没有,那你就填写几个号码,发送,多刷新几次,就可以了。在注释里面其实说的已经很清楚了,这里的constant代表我们要导入的py文件,里面包含你的用户名,密码,以及软件id。...原创 2022-07-23 19:50:36 · 4437 阅读 · 0 评论 -
网络爬虫爬取三国演义所有章节的标题和内容(BeautifulSoup解析)
前言:三国演义是我比较喜欢的小说了,记得袁阔成老先生说,《三国演义》是那段历史的一座人才宝库,也是一部活的兵书,是一座军事大课堂。从小喜欢读三国演义,常常为作者的文笔而惊叹。在这本书里,我们看见了过往的,看到了历史璀璨的文化积淀,同时我们也获取到了心灵的养分。很清楚的很深刻的一种感觉就是,史学文化巨著是一种鸡汤,就算我们学会太多的技术也无法代替文话巨著对人类的影响。没有中华文化的熏陶,心灵永远是干涸的。正文: 我坚信你我前面说到的不是废话,但我们要开始正文。目的需求:爬取三国演义的所有章节的标题.原创 2021-03-02 15:14:19 · 4330 阅读 · 10 评论 -
网络爬虫技术从入门到精通(渗透高端操作)第二章
一 :url相关1:url概念:(简单的理解)URL是(UniformResourceLocator,统一资源定位符)的缩写,它是WWW的统一资源定位标志,就是指网络地址。2:url组成 : 协议部分 ,一般是是http协议,https协议,这两种很常见。3 : 服务器的主机地址,可以是域名,主机名,ip地址,通俗讲,就是一种标识。4 :端口 : 这是服务器设定的,url里面可以不包括端口的,因为一般是服务器默认的,所以用户在访问url链接时可以不用指明端口号的。5 :路径,当然是访问资源所在的原创 2020-08-16 11:21:14 · 1927 阅读 · 0 评论 -
网络爬虫技术从入门到精通(渗透高端操作)第一章
爬虫的简单定义:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。下面我们来看网络爬虫框架,我先带大家入门,做一些简单的东西,并在实例中为大家讲述。爬虫的分类:1:通用网络爬虫它的爬取范围和爬取数据较大,对于爬取的速度和存储空间要求比较高,她在爬取页面的顺序上效率比较低,需要好长时间才能刷新一回页面,..原创 2020-08-14 11:49:54 · 7710 阅读 · 3 评论 -
将编写的python程序打包成exe可执行文件
如何将编写的python文件打包成exe可执行文件呢。很简单,这里我们用控制台来进行打包。下图是我在pycharm中利用网络爬虫编写的词典。现在我们要把它打包成可执行文件。我们先查看需要打包程序所在的目录,并在控制台下操作进入所在目录,应用指令pyinstaller -F reptiles_dict03.py,具体操作如下:接下来我们打开目录,打开dist可以看到,成功生成的可执行文件在这里。这个exe文件打开就可以执行了。效果如下欢迎大家留言指点,祝大家学好编程。具体可到我的资源提取。原创 2020-08-12 09:08:51 · 1767 阅读 · 7 评论