Python学习之网页抓取(二)

本文详细介绍了如何使用Python实现对下载网页内容的进一步提取,包括网页编码类型、标题等信息。通过正则表达式匹配,实现对网页元数据的解析,并提供了一个用于遍历和下载URL链接的模块。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这一篇实现的功能是:对下载的网页内容进一步提取内容,如网页编码类型,标题等。

 

#!/usr/bin/env python
# -*- coding: GBK -*-
'''
Created on Jul 17, 2013
@author: belong
'''

import urllib
import re

class Tools:
    def write_log(self, level, info):
        print '[' + level + ']' + info
    def match_regex(self,pattern,src):
        result = ""
        com = re.compile(pattern,re.I)
        matchers = com.findall(src)
        print matchers
        for matcher in matchers:
            result += matcher +" "
        return result.strip()#strip函数返回去掉两端空格的字符串
           
class Crawler:
    #获取一个url链接的所有urls
    def get_url(self, url):
        html = urllib.urlopen(url)
    #     pattern = re.compile("http://.*?\.com",re.I)
        pattern = re.compile(r'[a-zA-z]+://[^\s]*\.html?', re.I)
        while True:
            data = html.read()
            if data:
                urls = pattern.findall(data)
            else:
                break
        html.close()
        return urls
    
    #下载url对应网页
    def download_url(self, url, filename):
        Tools().write_log("info","开始下载")
        html = urllib.urlopen(url)
        f = open(filename, 'w')
        while True:
            page = html.read()
            if page:
                f.write(page);
            else:
                break
        html.close()
        f.close()
        Tools().write_log("info","网页下载成功")
        return page
    
    #广度优先遍历
    def broad_traverse(self, start_url, number):
        Tools().write_log("info","开始遍历")
        visited = []
        unvisited = []
        unvisited.append(start_url)
        while len(unvisited):
            if len(visited) < number:
                url = unvisited.pop(0);
                print url, len(visited)
                i = len(visited)
#                 self.download_url(url, str(i) + '.html')
                visited.append(url)
                url_list = self.get_url(url)
                for eachlink in url_list:
                    if ((unvisited.count(eachlink) == 0) & (visited.count(eachlink) == 0)):
                        unvisited.append(eachlink)
            else:
                break
        Tools().write_log("info","遍历成功")
        return visited 
    
    def main(self):
        start_url = "http://www.baidu.com"
        self.broad_traverse(start_url, 10)

#数据提取类
class DataExtractor:
    #提取标题
    def get_title(self,data):
        title = Tools().match_regex('<title>.*?<\/title>', data)
        if title == "":
            Tools().write_log( "Error", "标题匹配不成功")
        return title
    #提取内容格式
    def get_type(self,data):
        type = Tools().match_regex('<meta.*content=.*?\/>', data)
        return type
    #提取字符类型
    def get_charset(self,data):
        charset = Tools().match_regex('<meta.*?charset=.*?\/>', data)
        return charset
    
    def get_info(self,url):
        try:
            data = Crawler().download_url(url,str(11)+'.html')
        except:
            Tools().write_log("error", url+"抓取失败")
            raise
    
        Tools().write_log("info", "开始数据匹配")
        rst = {}#rst是一个字典
        rst['title'] = self.get_title(data)
        print "title:",rst['title'] 
        rst['type'] = self.get_type(data)
        print "type:",rst['type'] 
        rst['charset'] = self.get_charset(data)
        print "charset:",rst['charset'] 
        Tools().write_log("DEBUG",'title=%s,type=%s,type=%s'%(rst['title'],rst['type'],rst['charset']))
        return rst

def main():
    start_url = "http://www.baidu.com"
    crawler = Crawler()
    url_list = crawler.broad_traverse(start_url, 10)   
    dataExtractor= DataExtractor()
    for url in url_list:
        dataExtractor.get_info(url)

main()


 

电动汽车数据集:2025年3K+记录 真实电动汽车数据:特斯拉、宝马、日产车型,含2025年电池规格和销售数据 关于数据集 电动汽车数据集 这个合成数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕捉技术规格、性能、定价、制造来源、销售和安全相关属性。每一行代表由vehicle_ID标识的唯一车辆列表。 关键特性 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨度多年(包括传统和即将推出的)。 数据质量说明: 某些行可能缺少某些字段(空白)。 几个分类字段包含不同的、特定于供应商的值(例如,Charging_Type、Battery_Type)。 各列中的单位混合在一起;注意kWh、km、hr、USD、g/km和额定值。 列 列类型描述示例 Vehicle_ID整数每个车辆记录的唯一标识符。1 制造商分类汽车品牌或OEM。特斯拉 型号类别特定型号名称/变体。型号Y 与记录关联的年份整数模型。2024 电池_类型分类使用的电池化学/技术。磷酸铁锂 Battery_Capacity_kWh浮充电池标称容量,单位为千瓦时。75.0 Range_km整数表示充满电后的行驶里程(公里)。505 充电类型主要充电接口或功能。CCS、NACS、CHAdeMO、DCFC、V2G、V2H、V2L Charge_Time_hr浮动充电的大致时间(小时),上下文因充电方法而异。7.5 价格_USD浮动参考车辆价格(美元).85000.00 颜色类别主要外观颜色或饰面。午夜黑 制造国_制造类别车辆制造/组装的国家。美国 Autonomous_Level浮点自动化能力级别(例如0-5),可能包括子级别的小
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值