python网络爬虫开发第二天

最新推荐文章于 2021-08-09 17:50:33 发布

他们说快写一首情歌

最新推荐文章于 2021-08-09 17:50:33 发布

阅读量247

点赞数

CC 4.0 BY-SA版权

分类专栏：人生苦短我用python 文章标签： python 网络爬虫

本文链接：https://blog.youkuaiyun.com/qq_38684512/article/details/89610339

人生苦短我用python 专栏收录该内容

24 篇文章

订阅专栏

本文深入探讨了网站URL设计的树形结构，解析深度优先与广度优先算法在爬虫开发中的应用，强调URL去重策略的重要性，避免爬虫陷入无限循环。

python网络爬虫开发第二天

网站的树结构（url设计）

url->子域名->具体文章
www.qq.com->v.qq.com->v.qq.com/x/cover/71ielauv44ray7v.html

url分层设计
1.顶级域名
2.二级域名
3.n级域名
4.域名下有类型
5.类型下有id（文章视频啥的id）

通过再网站上加链接覆盖所有url
整个网站是树形结构

爬取网站需要策略
1.画出网站url结构图
链接是有环路的所有url都向下爬取陷入死循环无限返回主页取第一个url
2.url去重
爬取晚后把url放到爬起历史中下一次提取到url出现再历史爬取中直接跳过进入第二个url中
不会形成环路

深度优先算法和实现

				A
			B     C
		D  E     F  G  H
			I
			一步一步往下走 走完了退回来(优先左边)
A->B->D->E->I->C->F->G->H
scrapy默认使用深度优先,深度优先用递归实现
递归不跳出 一直递归 递归过深 栈会溢出

广度优先算法和实现

同上一模块树
先访问兄弟节点，再访问子节点
第一层节点访问完 访问第二层节点
广度优先也叫做按层次遍历
也叫宽度优先算法
A->B->C->D->E->F->G->H->I
广度优先算法通过队列实现

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

他们说快写一首情歌

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）

努力让自己发光，对的人才能迎着光而来

03-07

9万+

100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）

100天精通Python（爬虫篇）——第116天：利用lxml与Xpath解析提取网页数据

努力让自己发光，对的人才能迎着光而来

07-03

2万+

一、爬虫提取网页数据的流程图二、lxml库 1. 下载安装 2. 解析HTML网页三、Xpath介绍 1. 选取节点 2. 谓语 3. 选取未知节点 4. 选取若干路径 5. Chrome插件 XPath Helper安装使用 6. Xpath实战..................

参与评论您还未登录，请先登录后发表或查看评论

python 网络爬虫开发及数据的可视化

Dl_MrE的博客

08-09

1744

python 网络爬虫开发及数据的可视化实验目标开发网络爬虫在东方财富、新浪财经或者纳斯达克等财经网站上爬取一只股票的每天的开盘价，收盘价，最高价，最低价等信息，并存储在数据库中，并开发GUI应用可视化。实验分析第一步我们先对实验题目进行解读，通过分析，实验要求包括以下几个： 1.爬取网页数据 2.连接数据库 3.创建GUI界面在明确了实验要求之后，第二步逐步实现，最后将几个分散的功能块进行连接。下面具体来展示一下代码的实现过程。实验过程 1.爬取动态网页 @property def r

五分钟学会Python网络爬虫

python588的博客

05-22

2117

但不管怎样，爬虫技术是无罪的，还是值得我们开发人员去学习了解一下的。在学习之前，我们还是要先了解一下相关概念。什么是爬虫 网络爬虫：又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。大数据时代，要进行数据分析，首先要有数据源，可数据源从哪里来，花钱买，没预算，只能从其它网站就行抓取。细分下来，业内分为两类：爬虫和反爬虫。反爬虫：顾名思义，就是防止你来我网站或APP上做爬虫的。爬虫工程师和反爬虫工程师是一对相爱相杀的小伙伴，经常因为对方要加班写代码，

python3.6网络爬虫_python3.6网络爬虫

weixin_39897015的博客

12-16

869

《精通Python网络爬虫：核心技术、框架与项目实战》——导读前　　言为什么写这本书网络爬虫其实很早就出现了，最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中，主要使用通用网络爬虫对网页进行爬取及存储。随着大数据时代的到来，我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析，我们可以使用网络爬虫对这些特定的数据进行爬取，并对一些无...文章华章计算机2017-05-02380...

python 练习小项目（输入输出/分支结构/循环结构）

qq_38684512的博客

08-06

1365

python 练习小项目熟悉python的输入输出帮海豹买鱼熟悉python的输入输出帮海豹买鱼 ''' 海豹买鱼问题输入买鱼的种类和条数替海豹计算出总价 sumPrice = typeAFishPrice*typeAFishNum + typeBFishPrice*typeBFishNum Version: 0.1 Author: 快写一首情歌 ''' typeAFishPrice ...

python打印语句

qq_38684512的博客

04-23

1071

#!/usr/bin/python #coding=utf-8 import sys print'------------------' ##在同一行使用多条语句## #语句用分号隔开 x='runoob1';y="runboob2" z='1234567' sys.stdout.write(x);sys.stdout.write(y+'\n') print'----------------...

python多行语句，引号的用法及空行

qq_38684512的博客

04-23

916

#!/usr/bin/python #coding=utf-8 #文件名：BasicGrammer if True: print"看样子变量是对的"; else: print"情况不妙，变量错了"; ##多行语句## #我们常常使用\将一行语句分为多行显示 item_one=item_two=item_three=1; total = item_one +\...

python成员运算符和身份运算符

qq_38684512的博客

04-23

656

#!/usr/bin/python #coding=utf-8 #文件SpecialObjective.py ##成员运算符## #in 如果在指定的序列中找到值返回True找不到返回False #notin 如果没有找到返回True找到返回False INum1 = 10 INum2 = 20 list =[1,2,3,4,10] if(INum1 in list): ...

python简单循环2

qq_38684512的博客

04-23

426

#!/usr/bin/python #coding=utf-8 ##通过序索引迭代（下标）## fruits = ["apple" , "banana" , "lemon"] for index in range(len(fruits)): print "fruit:",fruits[index] print '---------------------------------...

python 网络爬虫开发第四天

qq_38684512的博客

04-30

342

python 网络爬虫开发第四天搭建虚拟环境(python3)调试xpath简介xpath节点关系xpath语法通过Xpath提取出html中的值搭建虚拟环境(python3) mkvirtualenv --python=E:\py3\python.exe article 搭建好了第二次进入使用workon workon article 安装scrapy pip install -i http...

python简单循环

qq_38684512的博客

04-23

311

#!/usr/bin/python #coding=utf-8 #文件名:loop.py ##简单while循环## print '---------------------------' count = 0 while (count < 9): print 'This count is:',count count = count + 1 print '-...

python列表元组和字典

qq_38684512的博客

04-23

285

#!/usr/bin/python #coding=utf-8 #文件名：value1.py ##List（列表）完成集合类数据结构实现## #支持字符，数组，字符串什么列表（嵌套），使用[]标识符 #列表中的值切割也可以用到变量[头下标:尾下标]就可以截取相应的列表 #左到右默认0.右到左默认-1 #只能正序 #python 列表截取可以接受第三个参数表示截取的步长 Alist = ['AA...

python 网络爬虫开发第五天

qq_38684512的博客

05-01

282

python 网络爬虫开发第五天css选择器来选择htmlcss选择器使用分析网页结构 css选择器来选择html 1. * 选择所有节点 2. #container 选择id为container的结点 3..container 选取所有class包含container的节点 4.li a 选取所有li下的a节点 5.ul +p 显泽ul后面的第一个p元素 6.div#container >...

python 元组简介

qq_38684512的博客

04-25

270

#!/usr/bin/python #coding=utf-8 #文件名:typevar2.py ##元组## tup1=(1,2,3,4,5,) tup2='a','b','c','d') tup3=('physics','chemistry',1987,234) #元组使用小括号，且元组的元素不能修改# tup4=() tup5=(19,) #访问元组 print "tup1[0]",...

python网络爬虫 开发第一天

qq_38684512的博客

04-26

250

python网络爬虫 开发第一天选用框架网页分类作用用正则表达式提取数据选用框架 scrapy requests +beautifulsoup(待定) scrapy为框架添加requests和beautifulsoup库 scrapy基于twisted 异步I/O框架性能非常优异 scrapy方便拓展内置css和xpath selector比纯python的beautifulsuop快网...

python网络爬虫 开发第三天

qq_38684512的博客

04-28

222

python 网络爬虫开发第三天爬虫去重策略字符串编码爬虫去重策略 1.将访问过的url保存到数据库中（简单，效率低，数据库虽然有缓存，但每个url都要从数据库查询） 2.将访问过的url保存到set（内存）中。只需要o(1)的代价就可以查询url（内存占用越来越大） 1000000002byte50个字符 /1024/1024/1024 = 9G（100byte一个） 3.url经过md5等方...

python pass用法和字符类型转化

qq_38684512的博客

04-23

219

#!/usr/bin/python #coding=utf-8 #输出python的每个字母 for letter in 'Python': if letter == 'h': pass print '这是pass块' print '当前字符',letter print 'End bye!' #Pyt...

python模块引入和输入简介

qq_38684512的博客

04-25

186

#!/usr/bin/python #coding=utf-8 #文件名 :Mouule.py #导入模块 import support #调用模块包含的函数 'support.print_func("Hai_Bao"):' #读取键盘输入 #raw_input() 从标准输入读取一个行并返回一个字符串去掉结尾换行符 str = raw_input('请输入:') print "你的输...

python网络爬虫 开发第二天

python网络爬虫 开发第二天

网站的树结构（url设计）

深度优先算法和实现

广度优先算法和实现

python网络爬虫开发第二天

python网络爬虫开发第二天