python爬虫实战-爬取猫眼电影榜单top100

猫眼电影是静态网页,并且不需要验证码,非常适合爬虫的入门练习,流程如下-通过url连接获取html内容,

在html中通过正则表达式,我们提取排名,名称,主演,上映时间等信息,格式如下

["9", "魂断蓝桥", "主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森", "上映时间:1940-05-17(美国)"]

import requests
import re
from bs4 import BeautifulSoup
import json
import time

requests和bs是爬虫需要的库,json是写入内容需要的库,time库防止猫眼反爬虫检测,加入休息时间,防止访问太频繁,re是正则表达式的库

def getHTMLText(url):
    headers = { 'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_13_3)AppleWebKit/537.36(KHTML,like Gecko) Chrome/65.0.3325.162 Safari/537.36'}
    try:
        r = requests.get(url, headers = headers)
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''

这是访问url得到html信息的函数,headers是修改头文件,防止被识别为爬虫,r.apparent_encoding是识别文件的编码方式,防止出现乱码

def write_to_file(conten
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值