crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程

html的宗旨:      <标签 属性=”属性的值“></标签>        只是对于文本的一种解释划分吧

dom的宗旨:      就是一个大数组,处理方便,效率低

xml                      <node attr=value>...</node>          html是它的子集,树结构    主要注意节点关系

json                      类似xml,对JavaScript友好

mysql                  show database显示当前服务i上数据库

        create database dbname创建一个新数据库

        use dbname使用指定的数据库

        show tables显示当前数据库的所有表

         desc tbname 显示表数据

爬虫工作流程

种子url放入队列  获取url抓取内容  解析内容,需要进一步抓取的放入工作队列  存储解析后的内容

抓取策略

广度优先  深度优先  pagerank(给自己的网页打分)  大站优先策略 

去重

Hash表  bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)

爬虫质量

质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性

更多

map/reduce  布隆过滤器

爬虫规范与原则 robots协议

 

  

转载于:https://www.cnblogs.com/xingnie/p/9688903.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值