python网络爬虫与信息提取学习笔记day1

最新推荐文章于 2025-09-11 21:03:21 发布

转载最新推荐文章于 2025-09-11 21:03:21 发布 · 80 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yezhaodan/p/7419192.html

文章标签：

#python #爬虫

本文介绍如何使用Python和requests库配置爬虫环境并抓取网页内容。通过实例演示了爬取百度首页的过程，包括状态码检查、编码设置及异常处理。

Day1：

安装python之后，为其配置requests第三方库，并爬取百度主页内容。

语句解释：

r.status_code检测请求的状态码，如果状态码为200，则说明访问成功，否则，则说明访问失败。

注意Response对象的五个属性：

爬取网页的通用代码框架：

# -*- coding: utf-8 -*-

"""

Spyder Editor

 

This is a temporary script file.

"""

import requests

 

def getHTMLText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

   

if __name__=="__main__":

    url="http://www.baidu.com"

    print(getHTMLText(url))

HTTP URL的理解

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

http协议对资源的操作对应requests库的六个操作