【零基础学爬虫】学Python的第一周,自己编写用Python爬取vip小说付费章节,实现小说自由!

之前因为想研究怎么让esp8266上校园网,折腾半天,请教大佬后,说要先学爬虫,就能知道怎么模拟登录上网了。大佬学的是c#,我学的是python,于是就开始学习了python爬虫,这是学习中觉得好玩的事,也遇到了不少困难。

完整源代码已打包,文末可免费领取

一、先上效果图

在这里插入图片描述
在这里插入图片描述

这本书一共两千四百多章,一开始基本上爬到第1章(前面还有广告恰饭章)就报

在这里插入图片描述

Remoto end closed connection without response 的错,估计被发现是爬虫了,弄了半天,总算爬取成功。

二、bs4学习

1、原理

bs4进行数据解析
bs4数据解析原理
1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据解析
 环境安装
# pip install bs4
# pip install lxml
#如何实例化BeautifulSoup对象
from bs4 import BeautifulSoup

2、运用

两种操作方式,我们一般用第二种爬取网页

from bs4 import BeautifulSoup
#1.将本地的html文档中的数据加载到对象中 fp = open("./baidu.html",'r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml')#创建一个lxml解析器
# print(soup)
#2.将互联网上获取的页面源码加载到该对象中
#page_text = response.text
#soup = BeatifulSoup(page_text,'lxml')

在这里插入图片描述

3、数据解析

#提供用于数据解析
#print(soup.a)#soup.tagName 返回的是html中第一次出现的tagName标签
#print(soup.div)
#print(soup.find('div'))   #等同于soup,div

4、属性定位

 #属性定位
#print(soup.find('div',class_= "head_wrapper"))
#print(soup.find_all('a'))# 返回符合要求的所有标签
#select  select('某种选择器(id,class,标签,,,选择器)')
#print(soup.select('.head_wrapper'))
#print(soup.select(".head_wrapper > "))
#soup.select('.tang > ul > li > a')[0] #层级选择
#soup.select('.tang > ul  a')[0] #跨层选择 空格表示多个层级

5、获取标签之间的文本数据

#获取标签之间的文本数据
print(soup.select('a')[0].string)   # 只可以获取该标签下面直系的文本内容
print(soup.select('a')[0].get_text())#text/get_text()可以获取某一个标签中所有的文本内容
print(soup.select('a')[0].text)

6、获取标签中的属性值

#获取标签中的属性值
#print(soup.select('.tang > ul > li > a')[0]['href'])

三、开始爬小说

一般步骤

  1. 聚焦爬虫 爬取页面中指定的页面内容
  2. 编码流程
  3. 指定URL
  4. 发起请求
  5. 获取响应数据
  6. 数据解析
  7. 持久化存储

在此之前,先要

pip instal requrests
import requrests

1、获取url

首先我选用笔趣阁的《凡人修仙传》作为爬取对象

url = 'https://www.qbiqu.com/7_7365/'

2 、UA伪装

然后,正常的ua伪装(User-Agent)用户代理,里面包含操作系统版本号和使用的浏览器,来伪装成一个正常的请求。按键盘上的F12 进入网站的开发者模式得到。(找不到可以尝试刷新页面)

#UA : User_Agent(请求载体的身份标识)
#UA检测 门户网站的服务器会检测对应请求的载体身份标识,如果监测到的载体身份标识为某一款浏览器
#说明该请求是一个正常的请求。但是如果检测到的载体身份标识不是基于某一款浏览器则表示该请求
#为不正常的请求(爬虫),则服务器就很可能拒绝该次请求

在这里插入图片描述

#UA伪装: 将对应的User-Agent封装到一个字典中
    headers = {
   
   
        "User-Agent":'Mozilla/5.0 (Windows N
### 合法获取付费小说数据的方法 在讨论如何使用 Python 爬虫技术爬取付费小说内容前,需明确的是,任何涉及未经授权的访问或复制受版权保护的内容的行为都是违法的。因此,在尝试爬取付费小说时,必须严格遵守以下原则: #### 法律与道德约束 - **合法性**:大多数付费小说平台会明确规定其内容仅限于已购买账户的用户查看。如果试图绕过这些限制,则可能违反《计算机欺诈和滥用法案》或其他相关法律[^1]。 - **Robots协议遵循**:如同股票数据采集一样,应当先查阅目标站点的 `robots.txt` 文件了解哪些区域开放给自动程序访问[^2]。 即使技术上可行,也绝不建议实施非法手段去取得未授权的小说资料。下面提供一种假设情景下的解决方案——即当您拥有正当权限(比如订阅服务),并通过合理方式利用API接口来存档个人所购得的故事章节。 #### 技术实现思路 假如已经获得适当许可,以下是基于Python的一个基本框架用来保存从特定源读取的文字材料: ```python import requests from bs4 import BeautifulSoup def fetch_chapter(url, headers=None): response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') title_tag = soup.find('h1') # 假设标题位于<h1>标签内 content_div = soup.find('div', {'class': 'content'}) # 假定正文存在此类名下 chapter_title = title_tag.string.strip() if title_tag else "Unknown Title" text_content = "\n".join([p.get_text().strip() for p in (content_div.find_all('p'))]) if content_div else "" return {"title": chapter_title, "text": text_content} if __name__ == "__main__": url_to_fetch = input("Enter the URL of the novel chapter:") user_agent_header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' 'AppleWebKit/537.36(KHTML, like Gecko) Chrome/' '89.0.4389.82 Safari/537.36' } result = fetch_chapter(url=url_to_fetch, headers=user_agent_header) with open(f"{result['title']}.txt", mode='w+', encoding="utf-8") as file_handler: file_handler.write(result['text']) ``` 此脚本示范了怎样模拟浏览器行为加载网页,并提取指定结构内的信息。注意替换实际页面元素名称以匹配具体网站布局[^4]。 #### 结论 再次重申,以上仅为理论探讨和技术分享,请务必确认您的操作符合当地法律法规以及各在线服务平台的规定后再行动!
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值