一、网页组成
网页是由 HTML 、 CSS 、JavaScript 组成的。
HTML 是用来搭建整个网页的骨架,而 CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制的, JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScript 配合 CSS 来完成的。
整个 HTML 文档一般分为 head 和 body 两个部分,在 head 头中,我们一般会指定当前的编码格式为 UTF-8 ,并且使用 title 来定义网页的标题,这个会显示在浏览器的标签上面。body 中的内容一般为整个 html 文档的正文,html的标签由
到
六个标签构成,字体由大到小递减,换行标签为
,链接使用来创建,herf属性包含链接的URL地址,比如一个指向百度的链接
(1)HTML DOM
在 HTML 中,所有标签定义的内容都是节点,它们构成了一个 HTML DOM 树。根据 W3C 的 HTML DOM 标准,HTML 文档中的所有内容都是节点:
整个文档是一个文档节点
每个 HTML 元素是元素节点
HTML 元素内的文本是文本节点
每个 HTML 属性是属性节点
注释是注释节点
HTML DOM 将 HTML 文档视作树结构。
通过 HTML DOM,树中的所有节点均可通过 JavaScript 进行访问。所有 HTML 元素(节点)均可被修改,也可以创建或删除节点。节点树中的节点彼此拥有层级关系。父(parent)、子(child)和同胞(sibling)等术语用于描述这些关系。父节点拥有子节点。同级的子节点被称为同胞(兄弟或姐妹)。
在节点树中,顶端节点被称为根(root)
每个节点都有父节点、除了根(它没有父节点)
一个节点可拥有任意数量的子
同胞是拥有相同父节点的节点
(2)CSS
在CSS中,我们使用CSS选择器来定位节点。例如,上例中 div 节点的 id 为 container ,那么就可以表示为 #container ,其中 # 开头代表选择 id ,其后紧跟 id 的名称。另外,如果我们想选择 class 为 wrapper 的节点,便可以使用 .wrapper ,这里以点 . 开头代表选择 class ,其后紧跟 class 的名称。
另外, CSS 选择器还支持嵌套选择,各个选择器之间加上空格分隔开便可以代表嵌套关系,如 #container .wrapper p 则代表先选择 id 为 container 的节点,然后选中其内部的 class 为 wrapper 的节点,然后再进一步选中其内部的 p 节点。另外,如果不加空格,则代表并列关系,如 div#container .wrapper p.text 代表先选择 id 为 container 的 div 节点,然后选中其内部的 class 为 wrapper 的节点,再进一步选中其内部的 class 为 text 的 p 节点。这就是 CSS 选择器,其筛选功能还是非常强大的。
二、网络爬虫的基本流程:
1、访问站点;
2、定位所需的信息;
3、得到并处理信息。
采用resquests进行网页爬虫的通用代码框架
import requests
def getHTMLtext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果状态不是200,引发HTTPerror错误
r.encoding=r.apparent_encoding
return r.text
except:
return"产生异常"
if _name_=='_main_':
url='http://www.baidu.com'
print getHTMLtext(url)
#示例:爬取python之禅
import requests
def getHTMLtext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果状态不是200,引发HTTPerror错误
r.encoding=r.apparent_encoding
return r.text
except:
return"产生异常"
if _name_=='_main_':
url='https://www.python.org/dev/peps/pep-0020/'
print getHTMLtext(url)
##根据网页内容,按F12查看网页源码,在开发者工具下Elements下产看python之禅所在的位置,发现位置被包围在<pre>的标签中。
with open ('zon_of_python.txt','w')as f:
f.write(text[text.find('<pre')+28:text.find('</pre')-1])
print(text[text.find('<pre')+28:text.find('</pre')-1])

1409

被折叠的 条评论
为什么被折叠?



