爬虫原理

这篇博客介绍了Python爬虫的基本原理,包括使用BeautifulSoup进行HTML解析,正则表达式匹配,以及HTTP协议的基础知识。同时,提到了前端概念的发展和深网的概念。

 

一二章学习笔记

part1 介绍爬虫基础

一二章 创建

爬虫基础,beautifulsoap介绍,正则表达式

三四章 采集

采集,api

五六 存储读取

MySQL,编码介绍,CSV,PDF,word等文件格式读取

看项目

part2 高级爬虫

javascrip等背后的信息

 

计算机网络基础

浏览器是1990年才发明的,最早的浏览器是Nexus浏览器,本来我们看到的网站应该是一串代码,有了浏览器就可以解释各种代码,呈现多彩多样的画面。

网络浏览器就是代码,而代码是 可以分解的,可以分解成许多基本组件,可重写、重用

这将会输出 http://pythonscraping.com/pages/page1.html 这个网页的全部 HTML 代码。更 准确地说,这会输出在域名为 http://pythonscraping.com 的服务器上 < 网络应用根地址 >/ pages 文件夹里的 HTML 文件 page1.html 的源代码。
 

BeautifulSoup

继上面

from urllib.request import urlopen 
html = urlopen("http://pythonscraping.com/pages/page1.html") 
print(html.read())

用urllib库函数获得网站的HTML代码 缺点是 全是HTML原封不动摘录 没有分类

现在用一个更强大的库函数 BeautifulSoup 里面有 BeautifulSoup对象 可以将HTML有标签的项分类 比如head body h

 

 

爬虫原理

网页像一个站点 用户获取数据方式

1.浏览器发出请求——下载网页代码——解析成页面

2.模拟浏览器发出请求——获取代码找出有用数据——下载存放数据库/文件中

 

正则表达式

(1) 字母“a”至少出现一次;

(2) 后面跟着字母“b”重复 5 次;

(3) 后面再跟字母“c”重复任意偶数次;

(4) 最后一位是字母“d”,也可以没有

aa* 后面的a*就表示a重复多少次 包括0次 所以前面写个a 表示a至少出现一次

bbbbb

(cc)* 表示c重复任意偶数次

 (d|)  (d|) 增加一个竖线(|)在表达式里表示“这个或那个”。本例是表示“增加一个后面跟着空 格的 d,或者只有一个空格”。这样我们可以保证字符串的结尾最多是一个后面跟着空 格的 d。

关于正则表达式

在线监测 http://regexpal.com/

官方文档 

 

HTTP协议

HTTP协议详细介绍 https://www.cnblogs.com/haiyan123/p/7777924.html

 

过程:一开始,用 getLinks 处理一个空 URL,其实是维基百科的主页,因为在函数里空 URL 就 是 http://en.wikipedia.org。然后,遍历首页上每个链接,并检查是否已经在全局变量 集合 pages 里面了(已经采集的页面集合)。如果不在,就打印到屏幕上,并把链接加入 pages 集合再用 getLinks 递归地处理这个链接

 

 

开始采集

下载了bs4

 python -m pip install bs4 

wiki1.py

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://baike.baidu.com/")
soup = BeautifulSoup(html)

for link in soup.findAll("a")://找到所有的超链接
    if "href" in link.attrs:
        print(link.attrs["href"])

说明

attrs是什么 attribute是什么 属性  这里面 href就是a的一个属性 a是超链接的意思

wiki2.py

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 
 
pages = set() 
def getLinks(pageUrl):     
    global pages                                                             #1
    html = urlopen("http://en.wikipedia.org"+pageUrl)     
    bsObj = BeautifulSoup(html)     
    for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):         #2 
        if 'href' in link.attrs:                                          #3 
        if link.attrs['href'] not in pages:                 # 我们遇到了新页面                                 
            newPage = link.attrs['href']                     
            print(newPage)                 
            pages.add(newPage)                 
            getLinks(newPage)                                             #4

getLinks("")

1.global 告诉解释器,后面这个对象是全局的对象,不是局部的。

2.re python中的re模块  #常用的方法  compile(pattern, flags = 0)  匹配任何可选的标记来编译正则表达式的模式,然后返回一个正则表达式对象 我的理解 这是个模板 只要含有/wiki/字样即可 (所以这段代码找的是内链)

python中的全局变量和局部变量详解https://blog.youkuaiyun.com/ssjdoudou/article/details/84023801

3.attrs attribute 属性

4.这个函数作用 找到所有内链 并把内链里的内链都打印出来 所以还用了递归 

 

一个warning 

wiki.py:5: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 5 of the file wiki.py. To get rid of this warning, pass the additional argument 'features="lxml"' to the BeautifulSoup constructor.

正则表达式 ((?!:).)*   匹配0或任意多个不以:结尾的任意字符。

六度分隔(Six Degrees of Separation)理论。简单地说:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。

退出Python交互模式用exit()

HTTP协议

进程和线程

 

 

哭了 我竟然连python的注释都忘了 写成了// 其实是# 当场晕倒

 

问:

1.所以HTML和css是和浏览器同期发明的吗?所谓的前端概念又是从什么时候出现的呢?

2.没有浏览器的时候 是谁向服务器发出请求而获取其他网站的呢

3.为什么这前面一串就是服务器?加上后面的呢 叫站点?服务器和站点的区别在哪?谁包含谁?

4.怎么知道哪个信息是有用的? 

答:4:用标签是一个方式 所以就要用到beautifulsoap建立对象

5.如何在这么复杂的HTML网页中找到自己需要的标签/去掉不需要的东西?

答:第2章 复杂HTML解析就是解释这个的

 

小结

1.了解了爬虫的基本大框架流程 爬虫就是一串代码 平时我们通过浏览器解析获取的网站代码 解析成多彩的网页 爬虫就是一次性模拟浏览器发出多个请求(猜的) 寻求特定的标签 从而获取特定的我们需要的数据 并下载供我们分析使用 

2.了解了beautifulsoap这个库函数 里面的beautifulsoap对象可以解析不同的标签 并分类

3.第一章主要介绍了计算机网络的基础知识,还有urllib

4.第三章介绍了基本的几种爬取方式 全网爬取等等 核心还是一些算法的应用 万变不离其宗 但我感觉我的脑机已经不够用惹

 

补充

深网是网络的一部分,与浅网(surface Web)对立。浅网是互联网上搜索引擎可以抓 到的那部分网络。据不完全统计,互联网中其实约 90% 的网络都是深网。因为谷歌不 能做像表单提交这类事情,也找不到那些没有直接链接到顶层域名上的网页,或者因 为有 robots.txt 禁止而不能查看网站,所以浅网的数量相对深网还是比较少的。

 

网站

Python爬虫原理 https://www.cnblogs.com/sss4/p/7809821.html

怎么安装Python的bs4包 https://blog.youkuaiyun.com/zhaomengszu/article/details/79404644

HTTP协议详细介绍 https://www.cnblogs.com/haiyan123/p/7777924.html

beautifulsoup菜鸟教程http://www.jsphp.net/python/show-24-214-1.html

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值