book118抓取器（玩具，上大学为了看盗版书写的）

wweTHEUT

于 2021-03-24 23:55:32 发布

阅读量1.8k

点赞数

文章标签： python

本文链接：https://blog.youkuaiyun.com/wweTHEUT/article/details/115191033

版权

本文介绍了一款使用Python编写的book118网站图书信息抓取器，详细阐述了其开发背景及基本功能，适合初学者了解网页抓取的基本原理和实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from urllib import request
from urllib import parse
import urllib
import ssl
import time
import json

def getImgUrlAll(furl,sn,img,f,page_count):
    furl=furl
    sn=sn
    img=img
    f=f
    page_count=page_count
    img_urls_id=[] #文档中每页的地址
     

    img_urls_id.append(img)
    for indexs in range(sn,page_count):
        json_url='https://view45.book118.com/PW/GetPage?f='+f+'&img='+img+'&isMobile=false&readLimit=z1SQwiTQU00uxfwJSFd6tA==&sn='+str(sn)+'&furl='+furl #请求获得文档地址的链接地址 
        context=ssl._create_unverified_context()
        try:
            url_response=urllib.request.urlopen(json_url,context=context)
            json_data=url_response.read()
            json_data=json.loads(json_data)
            img=json_data['NextPage']
            sn=json_data['PageIndex']
            img_ur

最低0.47元/天解锁文章