Python爬虫基础教程（14）Python爬虫常用模块之time模块（获取时间信息）：时间管理大师：Python爬虫的time模块，让你的爬虫学会“踩点”！

一、当爬虫撞上时间：为什么需要“踩点”？

想象一下这个场景：你写了个爬虫，兴致勃勃地准备大干一场，结果刚发起几个请求，就看到了熟悉的“429 Too Many Requests”——你被网站反爬机制精准打击了！

这时候，time模块就该闪亮登场了。

在Python爬虫的世界里，time模块就像是你的节奏指挥官。它不会让你的爬虫像个毛头小子一样横冲直撞，而是教会它什么时候该出手，什么时候该等待。

真实案例：小明写了个爬取某电商网站价格的爬虫，前10分钟一切顺利，然后...IP就被封了。问题出在哪？他的爬虫在1分钟内发起了200次请求，服务器直接判定这是机器人行为。

解决方案简单到令人发指：

import time

for page in range(100):
    # 爬取逻辑
    time.sleep(1)  # 每次请求后休息1秒

就这行简单的代码，让他的爬虫存活率从0%提升到了99%！

二、time模块：不止是“等一等”那么简单

很多人以为time模块就是个“计时器”，那就大错特错了。在爬虫中，time模块至少扮演着三个关键角色：

1. 反爬斗士：通过控制请求频率，避免触发网站的反爬机制
2. 时间记录官：记录爬虫的运行时间，帮你优化效率
3. 时间戳翻译官：把服务器返回的各种奇怪时间格式转换成人类能看懂的语言

接下来，我们深入看看time模块在爬虫中的“十八般武艺”。

三、time模块核心技能：爬虫必备三招

第一招：time.sleep() - 爬虫的“休息术”

这是time模块在爬虫中最常用的功能，没有之一。

import time

def polite_crawler():
    urls = ['http://example.com/page1', 'http://example.com/page2']
    
    for i, url in enumerate(urls):
        print(f'正在爬取第{i+1}页: {url}')
        # 这里是你的爬取代码
        
        if i < len(urls) - 1:  # 如果不是最后一页
            wait_time = 2 + i * 0.5  # 等待时间逐渐增加
            print(f'礼貌等待{wait_time}秒...')
            time.sleep(wait_time)

polite_crawler()

进阶技巧：随机等待时间，让爬虫行为更“人类化”

import time
import random

def random_delay_crawler():
    for page in range(10):
        # 爬取逻辑
        delay = random.uniform(1.0, 3.0)  # 1-3秒随机延迟
        print(f'随机延迟{delay:.2f}秒')
        time.sleep(delay)

第二招：time.time() - 爬虫的“秒表”

想知道你的爬虫到底跑得多快？time.time()来帮忙：

import time

def timed_crawler():
    start_time = time.time()
    
    # 模拟爬取过程
    print('爬虫开始工作...')
    time.sleep(2)  # 模拟网络请求
    
    end_time = time.time()
    cost_time = end_time - start_time
    print(f'本次爬取耗时: {cost_time:.2f}秒')

timed_crawler()

第三招：时间格式转换 - 爬虫的“翻译官”

网站返回的时间数据五花八门，time模块帮你统一整理：

import time

def time_converter():
    # 当前时间戳
    timestamp = time.time()
    print(f'当前时间戳: {timestamp}')