python爬虫之爬取首页校花网的信息

利用Python爬取校花网信息,包括姓名、票数和图片,并将这些信息进行保存,还展示了部分结果图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取校花网信息(姓名、票数、图片)并保存

http://www.ttpaihang.com/vote/rank.php?voteid=621

 

#!/usr/bin/env python 
# -*- coding:utf-8 -*-

"""
    1、爬去网站的信息
    2、筛选出有用数据
    3、保存有用数据
    4、有用的转化并保存
"""
import json
import parser
import requests
import lxml.html

def parse_url(url, headers):
    # 解析url
    response = requests.get(url,headers)
    return response.content.decode("gb2312")


def get_wanghong_data(html_content):
    # 筛选出有用数据
    metree = lxml.html.etree
    # 解析对象
    parser = metree.HTML(html_content,metree.HTMLParser())
    # 获取图片信息
    div_list = parser.xpath("//td [@align='center']")
    # div_list_name = parser.xpath("//a[@class='clink']")
    # print(div_list)
    # print(len(div_list))
    data = []
    for element in div_list:
        item = {}
        item["name"] = element.xpath("./table[@width='460']/tr/td[@class='main2_bt_td']/div[@align='left']/table[@width='100%']/tr/td[@width='75%']/span[@class='zthei']/a/text()")[0]
        item["sum"] = element.xpath("./table[@width='460']/tr/td[@class='zthong']/text()")[0]
        item["img"] = "http://www.ttpaihang.com"+element.xpath("./table[@width='460']/tr/td[@width='155']/div[@align='center']/a/img/@src")[0]
        # print(item)
        data.append(item)
    # print(data)
    return data


def save_file(datas):
    # 保存文件
    json_str = json.dumps(datas,ensure_ascii=False,indent=2)
    with open("./file/wanghong.json","w",encoding="utf-8") as files:
        files.write(json_str)
    print("数据以保存成功!")


def main():
    http_url = "http://www.ttpaihang.com/vote/rank.php?voteid=621"
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
    # 1、爬去网站的信息
    html_data = parse_url(http_url,header)
    # print(html_data)

    # 2、筛选出有用数据
    wanghong_data =get_wanghong_data(html_data)
    # print(wanghong_data)

    #保存有用数据
    save_file(wanghong_data)



if __name__ == '__main__':
    main()

部分结果图

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值