新手学习爬虫但是无法运行

最新推荐文章于 2024-08-06 09:49:30 发布

原创最新推荐文章于 2024-08-06 09:49:30 发布 · 674 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

爬虫专栏收录该内容

1 篇文章

订阅专栏

本文探讨了使用Python进行网络爬虫开发时遇到的常见问题，包括requests库的使用、正则表达式的匹配以及文件操作的基本技巧。作者分享了一个具体的代码示例，详细描述了在爬取小说网站数据过程中遇到的问题及可能的解决策略。

python## 新手小白跟着视频学的代码找不到适配器怎么处理？

import requests
import re
import os

def get_sort_list():
response = requests.get(‘http://www.quanshuwang.com/list/1_1.html’)
response.encoding = ‘gbk’
html = response.text
reg = r’’
return re.findall(reg, html)

def get_novel_list(url):
response = requests.get(url)
response.encoding = ‘gbk’
html = response.text
reg = r’<a href=".?" class=“reader”’
novel_url = re.findall(reg,html)[0]
response = requests.get(novel_url)
response.encoding = ‘gbk’
html = response.text
reg = r’

(.?)
’
return re.findall(reg,html)

for novel_name,novel_url in get_sort_list():
path = os.path.join(‘novel’,novel_name)
if not os.path.exists(path):
os.mkdir(path)#创建文件夹
else:
print(‘文件夹已经存在,跳过’)
continue
for i in get_novel_list(novel_url):#re.findall(reg,html)
print(i)
break

我是哪弄错了吗？？