给小可爱们一个爬虫小福利mzsock

因为本人比较喜欢搜集资料,在网上找mzsock的爬虫程序,但是网上的要不要钱,要不就是不能用,大佬们写的程序我的也运行不起来。所以自学了个爬虫然后自己爬了下,萌新编的,勿喷。

网站可能会更新,到时候爬虫可能不能用,所以有兴趣的快点搞。

爬虫萌新不会找头信息的进网站,然后F12→上面找network,点第一个列表,往下扒拉,回头headers的一个表示,那个就是。因为不知道自己的头信息会不会暴露所以就不放了。

import requests
from lxml import etree
import re, os

if not os.path.exists('./mz'):
    os.mkdir('./mz')

headers = {
    "User-Agent": "在这里输入自己的头信息,具体方法自行百度"
}  # 头信息
url = "http://mzsock.net/mv/"  # page/2 3 4 5 6

for m in range(1, 6):
    if m > 1:
        url = url + "page/" + str(m)
        # print(url)
    else:
        url = url
        # print(url)

    date_text = requests.get(url=url, headers=headers).text  # 母数据text
    tree = etree.HTML(date_text)  # 母数据实例化
    li_list = tree.xpath('/html/body/section/div[1]/ul/li')  # 提取各个列表的url

    li_http = []  # 子网址
    for li in li_list:
        li = li.xpath('./div[1]/a/@href')[0]
        li_http.append(li)

    http_title = []  # 子网址标题
    for title in li_list:
        title = title.xpath('./h3/a/@title')[0]
        http_title.append(title)

    for i in range(0, 20):  # 分别提取所有的子网址

        ex = '(.*?).html'
        li_http_jiequ = re.findall(ex, li_http[i], re.S)[0]
        # print(li_http_jiequ)
        for j in range(1, 30):
            if j > 1:
                http_pinjie = li_http_jiequ + '_' + str(j) + ".html"
                # print(http_pinjie)
            else:
                http_pinjie = li_http_jiequ + ".html"
                # print(http_pinjie)

            son_http = requests.get(url=http_pinjie, headers=headers).text  # 对子网站发起请求
            son_tree = etree.HTML(son_http)
            son_p_list = son_tree.xpath('//p[@class="img_jz"]')  # 得到图片所在的属性地址
            wocount = 1

            for p in son_p_list:  # 对子网址的图片发起请求
                p = p.xpath("./a/img/@src")[0]
                img_src = requests.get(url=p, headers=headers).content
                img_name = http_title[i] + str(j) + '.' + str(wocount) + ".jpg"
                wocount = wocount + 1
                imgpath = './mz/' + str(img_name)
                with open(imgpath, 'wb') as fp:
                    fp.write(img_src)
                    print(str(i + 1), str(img_name), '下载成功')
    url = "http://mzsock.net/mv/"

为了在Windows上安装ADB工具,你可以按照以下步骤进行操作: 1. 首先,下载ADB工具包并解压缩到你自定义的安装目录。你可以选择将其解压缩到任何你喜欢的位置。 2. 打开运行窗口,可以通过按下Win+R键来快速打开。在运行窗口中输入"sysdm.cpl"并按下回车键。 3. 在系统属性窗口中,选择"高级"选项卡,然后点击"环境变量"按钮。 4. 在环境变量窗口中,选择"系统变量"部分,并找到名为"Path"的变量。点击"编辑"按钮。 5. 在编辑环境变量窗口中,点击"新建"按钮,并将ADB工具的安装路径添加到新建的路径中。确保路径正确无误后,点击"确定"按钮。 6. 返回到桌面,打开命令提示符窗口。你可以通过按下Win+R键,然后输入"cmd"并按下回车键来快速打开命令提示符窗口。 7. 在命令提示符窗口中,输入"adb version"命令来验证ADB工具是否成功安装。如果显示版本信息,则表示安装成功。 这样,你就成功在Windows上安装了ADB工具。你可以使用ADB工具来执行各种操作,如枚举设备、进入/退出ADB终端、文件传输、运行命令、查看系统日志等。具体的操作方法可以参考ADB工具的官方文档或其他相关教程。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [windows环境安装adb驱动](https://blog.youkuaiyun.com/zx54633089/article/details/128533343)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Windows下安装使用ADB,简单易懂教程](https://blog.youkuaiyun.com/m0_37777700/article/details/129836351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值