python爬虫笔记-1

最新推荐文章于 2023-01-16 16:30:29 发布

原创最新推荐文章于 2023-01-16 16:30:29 发布 · 199 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

理论同时被 2 个专栏收录

42 篇文章

订阅专栏

代码

38 篇文章

订阅专栏

一、网页组成
网页是由 HTML 、 CSS 、JavaScript 组成的。
HTML 是用来搭建整个网页的骨架，而 CSS 是为了让整个页面更好看，包括我们看到的颜色，每个模块的大小、位置等都是由 CSS 来控制的， JavaScript 是用来让整个网页“动起来”，这个动起来有两层意思，一层是网页的数据动态交互，还有一层是真正的动，比如我们都见过一些网页上的动画，一般都是由 JavaScript 配合 CSS 来完成的。

整个 HTML 文档一般分为 head 和 body 两个部分，在 head 头中，我们一般会指定当前的编码格式为 UTF-8 ，并且使用 title 来定义网页的标题，这个会显示在浏览器的标签上面。body 中的内容一般为整个 html 文档的正文，html的标签由

到

六个标签构成，字体由大到小递减，换行标签为
，链接使用来创建，herf属性包含链接的URL地址，比如一个指向百度的链接

(1)HTML DOM
在 HTML 中，所有标签定义的内容都是节点，它们构成了一个 HTML DOM 树。根据 W3C 的 HTML DOM 标准，HTML 文档中的所有内容都是节点：
整个文档是一个文档节点
每个 HTML 元素是元素节点
HTML 元素内的文本是文本节点
每个 HTML 属性是属性节点
注释是注释节点
HTML DOM 将 HTML 文档视作树结构。

通过 HTML DOM，树中的所有节点均可通过 JavaScript 进行访问。所有 HTML 元素（节点）均可被修改，也可以创建或删除节点。节点树中的节点彼此拥有层级关系。父（parent）、子（child）和同胞（sibling）等术语用于描述这些关系。父节点拥有子节点。同级的子节点被称为同胞（兄弟或姐妹）。
在节点树中，顶端节点被称为根（root）
每个节点都有父节点、除了根（它没有父节点）
一个节点可拥有任意数量的子
同胞是拥有相同父节点的节点
（2）CSS
在CSS中，我们使用CSS选择器来定位节点。例如，上例中 div 节点的 id 为 container ，那么就可以表示为 #container ，其中 # 开头代表选择 id ，其后紧跟 id 的名称。另外，如果我们想选择 class 为 wrapper 的节点，便可以使用 .wrapper ，这里以点 . 开头代表选择 class ，其后紧跟 class 的名称。
另外， CSS 选择器还支持嵌套选择，各个选择器之间加上空格分隔开便可以代表嵌套关系，如 #container .wrapper p 则代表先选择 id 为 container 的节点，然后选中其内部的 class 为 wrapper 的节点，然后再进一步选中其内部的 p 节点。另外，如果不加空格，则代表并列关系，如 div#container .wrapper p.text 代表先选择 id 为 container 的 div 节点，然后选中其内部的 class 为 wrapper 的节点，再进一步选中其内部的 class 为 text 的 p 节点。这就是 CSS 选择器，其筛选功能还是非常强大的。

二、网络爬虫的基本流程：
1、访问站点；
2、定位所需的信息；
3、得到并处理信息。

采用resquests进行网页爬虫的通用代码框架

import requests
def getHTMLtext(url):
	try:
		r=requests.get(url,timeout=30)
		r.raise_for_status()#如果状态不是200，引发HTTPerror错误
		r.encoding=r.apparent_encoding 
		return r.text
	except:
		return"产生异常"
if _name_=='_main_':
	url='http://www.baidu.com'
	print getHTMLtext(url)

#示例：爬取python之禅
import requests
def getHTMLtext(url):
	try:
		r=requests.get(url,timeout=30)
		r.raise_for_status()#如果状态不是200，引发HTTPerror错误
		r.encoding=r.apparent_encoding 
		return r.text
	except:
		return"产生异常"
if _name_=='_main_':
	url='https://www.python.org/dev/peps/pep-0020/'
	print getHTMLtext(url)

##根据网页内容，按F12查看网页源码，在开发者工具下Elements下产看python之禅所在的位置，发现位置被包围在<pre>的标签中。
with open ('zon_of_python.txt','w')as f：
	f.write(text[text.find('<pre')+28:text.find('</pre')-1])
	print(text[text.find('<pre')+28:text.find('</pre')-1])