Python 爬虫爬取网页内容（lxml+requests）（#有手就行系列）_用python中的requests和lxml库来实现获取网页标题内容的操作-优快云博客

本文链接：https://blog.youkuaiyun.com/anbula/article/details/118575132

#有手就行系列 – 网页爬取（简易版）

1、准备阶段（链接代码）

	1）下载链接的代码文档（anaconda打开）或是文末的代码
	2）进行尝试，点击运行查看是否有报错
	tips：1、点击“1”箭头所示运行
		  2、注意“2”箭头所示处报错，查看自己是否安装相应的库

👇tips

2、代码阶段

1）获取网站全部内容（内容都在注释中，按步骤修改即可）

html_url="https://www.youkuaiyun.com"
#html_url="想爬取的网站网址"
#此处我们以csdn网站为例，自己使用时修改这部分内容即可（即填入自己所需爬取网站网址）
encoding_name='utf-8'
#encoding_name='想使用的encoding'
#'r','utf-8','GBK'
#此处我们需要使用‘utf-8’，常见的encoding已列举，一个不行换一个


import requests
import re
from lxml import etree
def html_get(html_url,encoding_name):
    headers={
   
   'user-agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}      
    response=requests.get(html_url,headers=headers)
    response.encoding=encoding_name
    html_text=response