#有手就行系列 – 网页爬取(简易版)
1、准备阶段(链接代码)
1)下载链接的代码文档(anaconda打开)或是文末的代码
2)进行尝试,点击运行查看是否有报错
tips:1、点击“1”箭头所示运行
2、注意“2”箭头所示处报错,查看自己是否安装相应的库
👇tips
2、代码阶段
1)获取网站全部内容(内容都在注释中,按步骤修改即可)
html_url="https://www.youkuaiyun.com"
#html_url="想爬取的网站网址"
#此处我们以csdn网站为例,自己使用时修改这部分内容即可(即填入自己所需爬取网站网址)
encoding_name='utf-8'
#encoding_name='想使用的encoding'
#'r','utf-8','GBK'
#此处我们需要使用‘utf-8’,常见的encoding已列举,一个不行换一个
import requests
import re
from lxml import etree
def html_get(html_url,encoding_name):
headers={
'user-agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}
response=requests.get(html_url,headers=headers)
response.encoding=encoding_name
html_text=response