Python 爬虫爬取网页内容(lxml+requests)(#有手就行系列)

#有手就行系列 – 网页爬取(简易版)

1、准备阶段(链接代码)

	1)下载链接的代码文档(anaconda打开)或是文末的代码
	2)进行尝试,点击运行查看是否有报错
	tips:1、点击“1”箭头所示运行
		  2、注意“2”箭头所示处报错,查看自己是否安装相应的库

👇tips
图例

2、代码阶段

1)获取网站全部内容(内容都在注释中,按步骤修改即可)

html_url="https://www.youkuaiyun.com"
#html_url="想爬取的网站网址"
#此处我们以csdn网站为例,自己使用时修改这部分内容即可(即填入自己所需爬取网站网址)
encoding_name='utf-8'
#encoding_name='想使用的encoding'
#'r','utf-8','GBK'
#此处我们需要使用‘utf-8’,常见的encoding已列举,一个不行换一个


import requests
import re
from lxml import etree
def html_get(html_url,encoding_name):
    headers={
   
   'user-agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}      
    response=requests.get(html_url,headers=headers)
    response.encoding=encoding_name
    html_text=response
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值